2 years ago · e2da150258
--- a/scripts/m4t/audio_to_units/audio_to_units.py
+++ b/scripts/m4t/audio_to_units/audio_to_units.py
@@ -6,11 +6,7 @@
 
															 import argparse
														
 
															 import logging
														
 
															 import torch
														
 
															-import torchaudio
														
 
															 from seamless_communication.models.unit_extraction import UnitExtractor
														
 
															-from seamless_communication.models.inference import Translator
														
 
															-from seamless_communication.models.vocoder import load_vocoder_model, Vocoder
														
 
															-from itertools import groupby
														
 
															 logging.basicConfig(level=logging.INFO)
														
@@ -34,24 +30,12 @@ def main():
 
															         help="Feature extraction model name (`xlsr2_1b_v2`)",
														
 
															         default="xlsr2_1b_v2",
														
 
															     )
														
 
															-    parser.add_argument(
														
 
															-        "--vocoder_name", type=str, help="Vocoder name", default="vocoder_36langs"
														
 
															-    )
														
 
															     parser.add_argument(
														
 
															         "--out_layer_number",
														
 
															         type=int,
														
 
															         help="Layer number of the feature extraction model to pull out features from.",
														
 
															         default=35,
														
 
															     )
														
 
															-    parser.add_argument(
														
 
															-        "--output_path",
														
 
															-        type=str,
														
 
															-        help="Path to save the generated audio.",
														
 
															-        default=None,
														
 
															-    )
														
 
															-    parser.add_argument(
														
 
															-        "--src_lang", type=str, help="Source language of the audio.", default=None
														
 
															-    )
														
 
															     args = parser.parse_args()
														
@@ -64,27 +48,7 @@ def main():
 
															     unit_extractor = UnitExtractor(args.model_name, args.kmeans_uri, device=device)
														
 
															     units = unit_extractor.predict(args.audio, args.out_layer_number - 1)
														
 
															-
														
 
															-    if args.output_path is not None:
														
 
															-
														
 
															-        if args.src_lang is None:
														
 
															-            raise ValueError("src_lang must be provided to resynthesize the audio.")
														
 
															-
														
 
															-        def reduce_list(lst):
														
 
															-            return [key for key, _ in groupby(lst)]
														
 
															-
														
 
															-        reduced_units = reduce_list(units.cpu().tolist())
														
 
															-
														
 
															-        vocoder: Vocoder = Translator.load_model_for_inference(
														
 
															-            load_vocoder_model, args.vocoder_name, device, torch.float32
														
 
															-        )
														
 
															-        wav = vocoder(reduced_units, args.src_lang, spkr=-1, dur_prediction=True)
														
 
															-
														
 
															-        torchaudio.save(
														
 
															-            args.output_path,
														
 
															-            wav[0].cpu(),
														
 
															-            sample_rate=16000,
														
 
															-        )
														
 
															+    logger.info(f"Converted to units: {units}")
														
 
															 if __name__ == "__main__":
														
--- a/src/seamless_communication/models/inference/translator.py
+++ b/src/seamless_communication/models/inference/translator.py
@@ -54,7 +54,6 @@ class Translator(nn.Module):
 
															         vocoder_name_or_card: Union[str, AssetCard],
														
 
															         device: Device,
														
 
															         dtype: DataType,
														
 
															-        sample_rate: int = 16000,
														
 
															     ):
														
 
															         super().__init__()
														
 
															         # Load the model.
														
@@ -80,7 +79,6 @@ class Translator(nn.Module):
 
															         self.vocoder: Vocoder = self.load_model_for_inference(
														
 
															             load_vocoder_model, vocoder_name_or_card, device, torch.float32
														
 
															         )
														
 
															-        self.sample_rate = sample_rate
														
 
															     @staticmethod
														
 
															     def load_model_for_inference(
														
@@ -93,17 +91,6 @@ class Translator(nn.Module):
 
															         model.eval()
														
 
															         return model
														
 
															-    @staticmethod
														
 
															-    def load_model_for_inference(
														
 
															-        load_model_fn: Any,
														
 
															-        model_name_or_card: Union[str, AssetCard],
														
 
															-        device: Device,
														
 
															-        dtype: DataType,
														
 
															-    ) -> nn.Module:
														
 
															-        model = load_model_fn(model_name_or_card, device=device, dtype=dtype)
														
 
															-        model.eval()
														
 
															-        return model
														
 
															-
														
 
															     @classmethod
														
 
															     def get_prediction(
														
 
															         cls,
														
@@ -168,6 +155,7 @@ class Translator(nn.Module):
 
															         src_lang: Optional[str] = None,
														
 
															         spkr: Optional[int] = -1,
														
 
															         ngram_filtering: bool = False,
														
 
															+        sample_rate: int = 16000,
														
 
															     ) -> Tuple[StringLike, Optional[List[Tensor]], Optional[int]]:
														
 
															         """
														
 
															         The main method used to perform inference on all tasks.
														
@@ -205,7 +193,7 @@ class Translator(nn.Module):
 
															             else:
														
 
															                 decoded_audio = {
														
 
															                     "waveform": audio,
														
 
															-                    "sample_rate": self.sample_rate,
														
 
															+                    "sample_rate": sample_rate,
														
 
															                     "format": -1,
														
 
															                 }
														
 
															             src = self.collate(self.convert_to_fbank(decoded_audio))["fbank"]
														
@@ -237,4 +225,4 @@ class Translator(nn.Module):
 
															         else:
														
 
															             units = unit_out.units[:, 1:][0].cpu().numpy().tolist()
														
 
															             wav_out = self.vocoder(units, tgt_lang, spkr, dur_prediction=True)
														
 
															-            return text_out.sentences[0], wav_out, self.sample_rate
														
 
															+            return text_out.sentences[0], wav_out, sample_rate
														
--- a/src/seamless_communication/models/unit_extraction/__init__.py
+++ b/src/seamless_communication/models/unit_extraction/__init__.py
@@ -9,9 +9,6 @@ from seamless_communication.models.unit_extraction.unit_extraction import (
 
															 from seamless_communication.models.unit_extraction.kmeans import (
														
 
															     KmeansModel as KmeansModel,
														
 
															 )
														
 
															-from seamless_communication.models.unit_extraction.wav2vec2_layer_output import (
														
 
															-    load_wav2vec2_layer_output_model as load_wav2vec2_layer_output_model,
														
 
															-)
														
 
															 from seamless_communication.models.unit_extraction.wav2vec2_layer_output import (
														
 
															     Wav2Vec2LayerOutputModel as Wav2Vec2LayerOutputModel,
														
 
															 )
														
--- a/src/seamless_communication/models/unit_extraction/kmeans.py
+++ b/src/seamless_communication/models/unit_extraction/kmeans.py
@@ -7,7 +7,6 @@
 
															 import torch
														
 
															 from torch import Tensor, nn
														
 
															 import numpy as np
														
 
															-from pathlib import Path
														
 
															 from fairseq2.typing import Device
														
 
															 from seamless_communication.assets import download_manager
														
@@ -20,10 +19,8 @@ class KmeansModel(nn.Module):
 
															         centroids_numpy = km_model.transpose()
														
 
															         centroids = torch.from_numpy(centroids_numpy)
														
 
															-        self.centroids = nn.Parameter(centroids, requires_grad=False).to(device)
														
 
															-        self.centroid_norm = nn.Parameter(
														
 
															-            (centroids**2).sum(0, keepdims=True), requires_grad=False
														
 
															-        ).to(device)
														
 
															+        self.centroids = centroids.to(device)
														
 
															+        self.centroid_norm = (self.centroids**2).sum(0, keepdims=True)
														
 
															     def forward(self, x: Tensor) -> Tensor:
														
 
															         dist: Tensor = (
														
--- a/src/seamless_communication/models/unit_extraction/unit_extraction.py
+++ b/src/seamless_communication/models/unit_extraction/unit_extraction.py
@@ -4,25 +4,27 @@
 
															 # This source code is licensed under the BSD-style license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-from typing import List, Tuple, Union
														
 
															+from typing import Union
														
 
															 from pathlib import Path
														
 
															 import torch
														
 
															-from fairseq2.typing import Device
														
 
															+from itertools import groupby
														
 
															+from fairseq2.typing import DataType, Device
														
 
															 from torch import Tensor, nn
														
 
															 from fairseq2.data.audio import AudioDecoder
														
 
															 from fairseq2.data import Collater
														
 
															 import torch.nn.functional as F
														
 
															-from fairseq2.data.typing import StringLike
														
 
															 from fairseq2.memory import MemoryBlock
														
 
															 from fairseq2.assets.card import AssetCard
														
 
															 from fairseq2.models.sequence import SequenceBatch
														
 
															+from fairseq2.models.wav2vec2 import Wav2Vec2Model
														
 
															 from seamless_communication.models.unit_extraction.wav2vec2_layer_output import (
														
 
															-    load_wav2vec2_layer_output_model,
														
 
															+    load_wav2vec2_model,
														
 
															     Wav2Vec2LayerOutputModel,
														
 
															 )
														
 
															 from seamless_communication.models.unit_extraction.kmeans import KmeansModel
														
 
															 from seamless_communication.models.inference import Translator
														
 
															+from seamless_communication.models.vocoder import load_vocoder_model, Vocoder
														
 
															 class UnitExtractor(nn.Module):
														
@@ -33,23 +35,25 @@ class UnitExtractor(nn.Module):
 
															         model_name_or_card: Union[str, AssetCard],
														
 
															         kmeans_uri: str,
														
 
															         device: Device,
														
 
															-        layer: int = 35,
														
 
															+        dtype: DataType = torch.float32,
														
 
															     ):
														
 
															         super().__init__()
														
 
															-        self.model: Wav2Vec2LayerOutputModel = Translator.load_model_for_inference(
														
 
															-            load_wav2vec2_layer_output_model, model_name_or_card, device, torch.float32
														
 
															+        self.wav2vec2_model: Wav2Vec2Model = Translator.load_model_for_inference(
														
 
															+            load_wav2vec2_model, model_name_or_card, device, dtype
														
 
															         )
														
 
															+        self.model = Wav2Vec2LayerOutputModel(self.wav2vec2_model)
														
 
															         self.device = device
														
 
															         self.decode_audio = AudioDecoder(dtype=torch.float32, device=device)
														
 
															         self.collate = Collater(pad_idx=2, pad_to_multiple=2)
														
 
															         self.kmeans_model = KmeansModel(kmeans_uri, device)
														
 
															-    @torch.no_grad()
														
 
															+    @torch.inference_mode()
														
 
															     def predict(
														
 
															         self,
														
 
															         audio: Union[str, torch.Tensor],
														
 
															         out_layer_idx: int,
														
 
															-    ) -> Tuple[List[Tensor], int]:
														
 
															+        sample_rate: int = 16000,
														
 
															+    ) -> Tensor:
														
 
															         if isinstance(audio, str):
														
 
															             with Path(audio).open("rb") as fb:
														
 
															                 block = MemoryBlock(fb.read())
														
@@ -57,14 +61,27 @@ class UnitExtractor(nn.Module):
 
															         else:
														
 
															             decoded_audio = {
														
 
															                 "waveform": audio,
														
 
															-                "sample_rate": 16000.0,
														
 
															+                "sample_rate": sample_rate,
														
 
															                 "format": -1,
														
 
															             }
														
 
															         src = self.collate(decoded_audio)["waveform"]
														
 
															         x = src["seqs"]
														
 
															-        x = F.layer_norm(x, x.shape)
														
 
															         x = x.view(1, -1)
														
 
															+        x = F.layer_norm(x, x.shape)
														
 
															         batch = SequenceBatch(seqs=x, seq_lens=src["seq_lens"])
														
 
															         features = self.model(batch, out_layer_idx).squeeze(0)
														
 
															         units = self.kmeans_model(features)
														
 
															         return units
														
 
															+
														
 
															+    @staticmethod
														
 
															+    def resynthesize_audio(units, src_lang, device, vocoder_name="vocoder_36langs"):
														
 
															+        def reduce_list(lst):
														
 
															+            return [key for key, _ in groupby(lst)]
														
 
															+
														
 
															+        reduced_units = reduce_list(units.cpu().tolist())
														
 
															+
														
 
															+        vocoder: Vocoder = Translator.load_model_for_inference(
														
 
															+            load_vocoder_model, vocoder_name, device, torch.float32
														
 
															+        )
														
 
															+        wav = vocoder(reduced_units, src_lang, spkr=-1, dur_prediction=True)
														
 
															+        return wav
														
--- a/src/seamless_communication/models/unit_extraction/wav2vec2_layer_output.py
+++ b/src/seamless_communication/models/unit_extraction/wav2vec2_layer_output.py
@@ -3,19 +3,17 @@
 
															 #
														
 
															 # This source code is licensed under the BSD-style license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-from fairseq2.nn.transformer import TransformerNormOrder
														
 
															+from fairseq2.nn.transformer import TransformerEncoder, TransformerNormOrder
														
 
															 from fairseq2.models.wav2vec2 import (
														
 
															     Wav2Vec2EncoderConfig,
														
 
															     Wav2Vec2Config,
														
 
															     wav2vec2_arch,
														
 
															     Wav2Vec2Model,
														
 
															-    Wav2Vec2Builder,
														
 
															-    Wav2Vec2EncoderBuilder,
														
 
															+    create_wav2vec2_model,
														
 
															+    Wav2Vec2Frontend,
														
 
															 )
														
 
															 from fairseq2.models.wav2vec2.loader import Wav2Vec2Loader
														
 
															 from fairseq2.models.utils.arch_registry import ArchitectureRegistry
														
 
															-from fairseq2.models.utils.model_loader import ModelConfigLoader
														
 
															-from fairseq2.typing import DataType, Device
														
 
															 from fairseq2.models.sequence import SequenceBatch
														
@@ -26,6 +24,8 @@ import torch
 
															 from typing import Optional
														
 
															 from torch import Tensor
														
 
															+import torch.nn as nn
														
 
															+
														
 
															 wav2vec2_archs = ArchitectureRegistry[Wav2Vec2Config]("wav2vec2")
														
 
															 wav2vec2_arch = wav2vec2_archs.marker
														
@@ -86,14 +86,31 @@ def _xlsr2_1b_v2() -> Wav2Vec2Config:
 
															     )
														
 
															-class Wav2Vec2LayerOutputModel(Wav2Vec2Model):
														
 
															-    @torch.no_grad()
														
 
															+load_wav2vec2_model = Wav2Vec2Loader(
														
 
															+    asset_store,
														
 
															+    download_manager,
														
 
															+    create_wav2vec2_model,
														
 
															+    wav2vec2_archs,
														
 
															+)
														
 
															+
														
 
															+
														
 
															+class Wav2Vec2LayerOutputModel(nn.Module):
														
 
															+    encoder_frontend: Wav2Vec2Frontend
														
 
															+    encoder: TransformerEncoder
														
 
															+
														
 
															+    def __init__(self, w2v2: Wav2Vec2Model):
														
 
															+        super().__init__()
														
 
															+
														
 
															+        self.encoder_frontend = w2v2.encoder_frontend
														
 
															+        self.encoder = w2v2.encoder
														
 
															+
														
 
															+    @torch.inference_mode()
														
 
															     def forward(self, batch: SequenceBatch, out_layer_idx: int):
														
 
															         """
														
 
															         :param batch:
														
 
															             The batch of sequences to process.
														
 
															         """
														
 
															-        seqs, padding_mask, _, _ = self.run_frontend(batch.seqs, batch.seq_lens)
														
 
															+        seqs, padding_mask = self.encoder_frontend(batch.seqs, batch.seq_lens)
														
 
															         w2v2_layer_output = None
														
 
															         def layer_output_hook(
														
@@ -107,70 +124,7 @@ class Wav2Vec2LayerOutputModel(Wav2Vec2Model):
 
															             if layer_idx == out_layer_idx:
														
 
															                 w2v2_layer_output = layer_output
														
 
															-        # TODO: Should pad for fp16?
														
 
															         _, _ = self.encoder(seqs, padding_mask, layer_output_hook)
														
 
															         assert w2v2_layer_output is not None
														
 
															         return w2v2_layer_output
														
 
															-
														
 
															-
														
 
															-class Wav2Vec2LayerOutputBuilder(Wav2Vec2Builder):
														
 
															-    def build_model(self) -> Wav2Vec2LayerOutputModel:
														
 
															-        """Build a model."""
														
 
															-        encoder_frontend = self.encoder_builder.build_frontend()
														
 
															-
														
 
															-        encoder = self.encoder_builder.build_encoder()
														
 
															-
														
 
															-        masker = self.build_masker()
														
 
															-
														
 
															-        quantizer = self.build_quantizer()
														
 
															-
														
 
															-        return Wav2Vec2LayerOutputModel(
														
 
															-            encoder_frontend,
														
 
															-            encoder,
														
 
															-            masker,
														
 
															-            quantizer,
														
 
															-            self.config.final_dim,
														
 
															-            self.config.final_proj_bias,
														
 
															-            self.config.num_distractors,
														
 
															-            self.config.logit_temp,
														
 
															-            self.config.diversity_loss_weight,
														
 
															-            device=self.device,
														
 
															-            dtype=self.dtype,
														
 
															-        )
														
 
															-
														
 
															-
														
 
															-def create_wav2vec2_layer_output_model(
														
 
															-    config: Wav2Vec2Config,
														
 
															-    device: Optional[Device] = None,
														
 
															-    dtype: Optional[DataType] = None,
														
 
															-) -> Wav2Vec2Model:
														
 
															-    """Create a wav2vec 2.0 model.
														
 
															-
														
 
															-    :param config:
														
 
															-        The configuration to use.
														
 
															-    :param device:
														
 
															-        The device on which to initialize modules.
														
 
															-    :param dtype:
														
 
															-        The data type of module parameters and buffers.
														
 
															-    """
														
 
															-    encoder_builder = Wav2Vec2EncoderBuilder(config.encoder_config, device, dtype)
														
 
															-
														
 
															-    return Wav2Vec2LayerOutputBuilder(
														
 
															-        config, encoder_builder, device, dtype
														
 
															-    ).build_model()
														
 
															-
														
 
															-
														
 
															-load_wav2vec2_layer_output_config = ModelConfigLoader[Wav2Vec2Config](
														
 
															-    asset_store, wav2vec2_archs
														
 
															-)
														
 
															-
														
 
															-load_wav2vec2_layer_output_model = Wav2Vec2Loader(
														
 
															-    asset_store,
														
 
															-    download_manager,
														
 
															-    create_wav2vec2_layer_output_model,
														
 
															-    wav2vec2_archs,
														
 
															-    # `weight_norm` used in `Wav2Vec2PositionEncoder` does not support meta
														
 
															-    # initialization.
														
 
															-    use_meta=False,
														
 
															-)