2 years ago · 9daf4692ef
--- a/README.md
+++ b/README.md
@@ -45,7 +45,7 @@ T2TT task:
 
															 m4t_predict <input_text> t2tt <tgt_lang> --src_lang <src_lang>
														
 
															 ```
														
 
															-Please refer to the [inference README](scripts/m4t/predict) for detailed instruction on how to run inference and the list of supported languages on the source, target sides for speech, text modalities.
														
 
															+Please refer to the [inference README](src/seamless_communication/cli/m4t/predict) for detailed instruction on how to run inference and the list of supported languages on the source, target sides for speech, text modalities.
														
 
															 ## Running [Gradio](https://github.com/gradio-app/gradio) demo locally
														
@@ -86,10 +86,10 @@ We provide the extensive evaluation results of seamlessM4T-Large and SeamlessM4T
 
															 To reproduce our results, or to evaluate using the same metrics over your own test sets, please check out the [README here](docs/m4t/eval_README.md).
														
 
															 ## Finetuning SeamlessM4T models
														
 
															-Please check out the [README here](scripts/m4t/finetune/README.md).
														
 
															+Please check out the [README here](src/seamless_communication/cli/m4t/finetune/README.md).
														
 
															 ## Converting raw audio to units
														
 
															-Please check out the [README here](scripts/m4t/audio_to_units/README.md).
														
 
															+Please check out the [README here](src/seamless_communication/cli/m4t/audio_to_units/README.md).
														
 
															 ## On-device models
														
 
															 Apart from Seamless-M4T large (2.3B) and medium (1.2B) models, we are also releasing a small model (281M) targeted for on-device inference. To learn more about the usage and model details check out the [README here](docs/m4t/on_device_README.md).
														
--- a/demo/app.py
+++ b/demo/app.py
@@ -11,8 +11,8 @@ import numpy as np
 
															 import torch
														
 
															 import torchaudio
														
 
															 from huggingface_hub import hf_hub_download
														
 
															-from seamless_communication.models.inference.translator import Translator
														
 
															+from seamless_communication.models.inference.translator import Translator
														
 
															 DESCRIPTION = """# SeamlessM4T
														
--- a/dev_requirements.txt
+++ b/dev_requirements.txt
@@ -1,5 +1,6 @@
 
															-pytest
														
 
															 black
														
 
															 flake8
														
 
															 isort
														
 
															 mypy
														
 
															+pre-commit
														
 
															+pytest
														
--- a/pyproject.toml
+++ b/pyproject.toml
@@ -0,0 +1,32 @@
 
															+[build-system]
														
 
															+requires = ["packaging~=23.1", "setuptools~=67.8", "wheel~=0.40"]
														
 
															+build-backend = "setuptools.build_meta"
														
 
															+
														
 
															+[tool.flake8]
														
 
															+extend_ignore = ["E", "Y"]  # Black
														
 
															+per-file-ignores = [
														
 
															+    "__init__.py:F401",
														
 
															+]
														
 
															+
														
 
															+[tool.isort]
														
 
															+profile = "black"
														
 
															+
														
 
															+[tool.mypy]
														
 
															+disable_error_code = "type-abstract"
														
 
															+disallow_untyped_calls = false
														
 
															+disallow_untyped_decorators = false
														
 
															+ignore_missing_imports = true
														
 
															+python_version = 3.8
														
 
															+show_error_codes = true
														
 
															+show_error_context = true
														
 
															+strict = true
														
 
															+warn_unused_configs = false
														
 
															+warn_unused_ignores = false
														
 
															+
														
 
															+[tool.pytest.ini_options]
														
 
															+minversion = "7.1"
														
 
															+testpaths = ["tests"]
														
 
															+filterwarnings = [
														
 
															+    "ignore:torch.nn.utils.weight_norm is deprecated in favor of",
														
 
															+    "ignore:TypedStorage is deprecated",
														
 
															+]
														
--- a/requirements.txt
+++ b/requirements.txt
@@ -1,7 +0,0 @@
 
															-pre-commit
														
 
															-datasets
														
 
															-torchaudio
														
 
															-tqdm
														
 
															-soundfile
														
 
															-librosa
														
 
															-fairseq2==0.2.*
														
--- a/scripts/m4t/train/install_devfair.sh
+++ b/scripts/m4t/train/install_devfair.sh
--- a/scripts/m4t/train/install_fairaws.sh
+++ b/scripts/m4t/train/install_fairaws.sh
--- a/setup.py
+++ b/setup.py
@@ -4,53 +4,14 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-from pathlib import Path
														
 
															-import os
														
 
															-from typing import Iterable
														
 
															-
														
 
															-import pkg_resources
														
 
															 from setuptools import find_packages, setup
														
 
															-from setuptools.command.develop import develop
														
 
															-
														
 
															-
														
 
															-def _load_requirements(fname: str) -> Iterable[str]:
														
 
															-    with open(Path(__file__).parent / fname) as fp_in:
														
 
															-        for req in pkg_resources.parse_requirements(fp_in):
														
 
															-            yield str(req)
														
 
															-
														
 
															-
														
 
															-def _add_symlinks():
														
 
															-    root = Path(__file__).parent
														
 
															-    sc_root = root / "src/seamless_communication"
														
 
															-    sc_link = root / "seamless_communication"
														
 
															-    m4t_scripts_root = root / "scripts/m4t"
														
 
															-    m4t_scripts_link = root / "m4t_scripts"
														
 
															-    if not sc_link.exists():
														
 
															-        os.symlink(sc_root, sc_link, target_is_directory=True)
														
 
															-    if not m4t_scripts_link.exists():
														
 
															-        os.symlink(m4t_scripts_root, m4t_scripts_link, target_is_directory=True)
														
 
															-
														
 
															-
														
 
															-class cmd_for_editable_mode(develop):
														
 
															-    def run(self):
														
 
															-        # add symlinks for modules if install in editable mode
														
 
															-        _add_symlinks()
														
 
															-        super().run()
														
 
															-
														
 
															-
														
 
															-default_requirements = list(_load_requirements("requirements.txt"))
														
 
															-dev_requirements = list(_load_requirements("dev_requirements.txt"))
														
 
															 setup(
														
 
															     name="seamless_communication",
														
 
															     version="1.0.0",
														
 
															-    packages=find_packages(where="src")
														
 
															-    + ["m4t_scripts.finetune", "m4t_scripts.predict"],
														
 
															-    package_dir={
														
 
															-        "m4t_scripts": "scripts/m4t",
														
 
															-        "seamless_communication": "src/seamless_communication",
														
 
															-    },
														
 
															-    package_data={"": ["assets/cards/*.yaml"]},
														
 
															+    packages=find_packages(where="src"),
														
 
															+    package_dir={"": "src"},
														
 
															+    package_data={"": ["py.typed", "cards/*.yaml"]},
														
 
															     description="SeamlessM4T -- Massively Multilingual & Multimodal Machine Translation Model",
														
 
															     long_description=open("README.md", encoding="utf-8").read(),
														
 
															     long_description_content_type="text/markdown",
														
@@ -59,17 +20,22 @@ setup(
 
															     author="Fundamental AI Research (FAIR) at Meta",
														
 
															     url="https://github.com/facebookresearch/seamless_communication",
														
 
															     license="Creative Commons",
														
 
															-    install_requires=default_requirements,
														
 
															-    extras_require={"dev": default_requirements + dev_requirements},
														
 
															+    install_requires=[
														
 
															+        "datasets",
														
 
															+        "fairseq2==0.2.*",
														
 
															+        "librosa",
														
 
															+        "soundfile",
														
 
															+        "torchaudio",
														
 
															+        "tqdm",
														
 
															+    ],
														
 
															     entry_points={
														
 
															         "console_scripts": [
														
 
															-            "m4t_evaluate=m4t_scripts.evaluate.evaluate:main",
														
 
															-            "m4t_predict=m4t_scripts.predict.predict:main",
														
 
															-            "m4t_finetune=m4t_scripts.finetune.finetune:main",
														
 
															-            "m4t_prepare_dataset=m4t_scripts.finetune.dataset:main",
														
 
															-            "m4t_audio_to_units=m4t_scripts.audio_to_units.audio_to_units:main",
														
 
															+            "m4t_evaluate=seamless_communication.cli.m4t.evaluate.evaluate:main",
														
 
															+            "m4t_predict=seamless_communication.cli.m4t.predict.predict:main",
														
 
															+            "m4t_finetune=seamless_communication.cli.m4t.finetune.finetune:main",
														
 
															+            "m4t_prepare_dataset=seamless_communication.cli.m4t.finetune.dataset:main",
														
 
															+            "m4t_audio_to_units=seamless_communication.cli.m4t.audio_to_units.audio_to_units:main",
														
 
															         ],
														
 
															     },
														
 
															-    cmdclass={"develop": cmd_for_editable_mode},
														
 
															     include_package_data=True,
														
 
															 )
														
--- a/src/seamless_communication/__init__.py
+++ b/src/seamless_communication/__init__.py
@@ -4,4 +4,19 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															+from pathlib import Path
														
 
															+
														
 
															+from fairseq2.assets import LocalAssetCardStorage, asset_store
														
 
															+
														
 
															 __version__ = "0.1.0"
														
 
															+
														
 
															+
														
 
															+def _update_asset_store() -> None:
														
 
															+    pathname = Path(__file__).parent.joinpath("cards")
														
 
															+
														
 
															+    card_storage = LocalAssetCardStorage(pathname)
														
 
															+
														
 
															+    asset_store.add_storage(card_storage)
														
 
															+
														
 
															+
														
 
															+_update_asset_store()
														
--- a/src/seamless_communication/assets/__init__.py
+++ b/src/seamless_communication/assets/__init__.py
@@ -1,9 +0,0 @@
 
															-# Copyright (c) Meta Platforms, Inc. and affiliates.
														
 
															-# All rights reserved.
														
 
															-#
														
 
															-# This source code is licensed under the license found in the
														
 
															-# LICENSE file in the root directory of this source tree.
														
 
															-from seamless_communication.assets.download_manager import (
														
 
															-    download_manager as download_manager,
														
 
															-)
														
 
															-from seamless_communication.assets.store import asset_store as asset_store
														
--- a/src/seamless_communication/assets/download_manager.py
+++ b/src/seamless_communication/assets/download_manager.py
@@ -1,27 +0,0 @@
 
															-# Copyright (c) Meta Platforms, Inc. and affiliates
														
 
															-# All rights reserved.
														
 
															-#
														
 
															-# This source code is licensed under the license found in the
														
 
															-# LICENSE file in the root directory of this source tree.
														
 
															-
														
 
															-from pathlib import Path
														
 
															-
														
 
															-import torch
														
 
															-from fairseq2.assets import DefaultAssetDownloadManager
														
 
															-
														
 
															-
														
 
															-class SCAssetDownloadManager(DefaultAssetDownloadManager):
														
 
															-    @classmethod
														
 
															-    def _get_pathname(cls, uri: str, sub_dir: str) -> Path:
														
 
															-        hub_dir = Path(torch.hub.get_dir()).expanduser()
														
 
															-
														
 
															-        hsh = cls._get_uri_hash(uri)
														
 
															-
														
 
															-        filename = cls._get_filename(uri)
														
 
															-
														
 
															-        return hub_dir.joinpath(
														
 
															-            "seamless_communication", "assets", sub_dir, hsh, filename
														
 
															-        )
														
 
															-
														
 
															-
														
 
															-download_manager = SCAssetDownloadManager()
														
--- a/src/seamless_communication/assets/store.py
+++ b/src/seamless_communication/assets/store.py
@@ -1,22 +0,0 @@
 
															-# Copyright (c) Meta Platforms, Inc. and affiliates
														
 
															-# All rights reserved.
														
 
															-#
														
 
															-# This source code is licensed under the license found in the
														
 
															-# LICENSE file in the root directory of this source tree.
														
 
															-
														
 
															-from pathlib import Path
														
 
															-
														
 
															-from fairseq2.assets import AssetStore
														
 
															-from fairseq2.assets.card_storage import LocalAssetCardStorage
														
 
															-from fairseq2.assets.store import DefaultAssetStore
														
 
															-
														
 
															-
														
 
															-def create_default_asset_store() -> AssetStore:
														
 
															-    pathname = Path(__file__).parent.joinpath("cards")
														
 
															-
														
 
															-    card_storage = LocalAssetCardStorage(pathname)
														
 
															-
														
 
															-    return DefaultAssetStore(card_storage)
														
 
															-
														
 
															-
														
 
															-asset_store = create_default_asset_store()
														
--- a/src/seamless_communication/assets/cards/seamlessM4T_large.yaml
+++ b/src/seamless_communication/assets/cards/seamlessM4T_large.yaml
--- a/src/seamless_communication/assets/cards/seamlessM4T_medium.yaml
+++ b/src/seamless_communication/assets/cards/seamlessM4T_medium.yaml
--- a/src/seamless_communication/assets/cards/seamlessM4T_v2_large.yaml
+++ b/src/seamless_communication/assets/cards/seamlessM4T_v2_large.yaml
--- a/src/seamless_communication/assets/cards/unity_nllb-100.yaml
+++ b/src/seamless_communication/assets/cards/unity_nllb-100.yaml
--- a/src/seamless_communication/assets/cards/unity_nllb-200.yaml
+++ b/src/seamless_communication/assets/cards/unity_nllb-200.yaml
--- a/src/seamless_communication/assets/cards/vocoder_36langs.yaml
+++ b/src/seamless_communication/assets/cards/vocoder_36langs.yaml
--- a/src/seamless_communication/assets/cards/vocoder_v2.yaml
+++ b/src/seamless_communication/assets/cards/vocoder_v2.yaml
--- a/src/seamless_communication/assets/cards/xlsr2_1b_v2.yaml
+++ b/src/seamless_communication/assets/cards/xlsr2_1b_v2.yaml
--- a/src/seamless_communication/cli/__init__.py
+++ b/src/seamless_communication/cli/__init__.py
--- a/src/seamless_communication/cli/eval_utils/__init__.py
+++ b/src/seamless_communication/cli/eval_utils/__init__.py
--- a/src/seamless_communication/cli/eval_utils/compute_metrics.py
+++ b/src/seamless_communication/cli/eval_utils/compute_metrics.py
@@ -4,17 +4,18 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-from pathlib import Path
														
 
															 import logging
														
 
															+from pathlib import Path
														
 
															+from typing import Optional
														
 
															+
														
 
															 import pandas as pd
														
 
															 import sacrebleu
														
 
															 import whisper
														
 
															-from jiwer import wer, cer
														
 
															+from jiwer import cer, wer
														
 
															 from tqdm import tqdm
														
 
															-from typing import Optional
														
 
															 from whisper.normalizers import BasicTextNormalizer, EnglishTextNormalizer
														
 
															-from scripts.eval_utils.lang_mapping import LANG3_LANG2
														
 
															+from seamless_communication.cli.eval_utils.lang_mapping import LANG3_LANG2
														
 
															 logging.basicConfig(
														
 
															     level=logging.INFO,
														
@@ -316,7 +317,7 @@ def compute_quality_metrics(
 
															             whisper_normalize_text=True,
														
 
															         )
														
 
															         transcripts_df.to_csv(
														
 
															-            (Path(output_dir) / f"whisper_audio_transcriptions.tsv"),
														
 
															+            (Path(output_dir) / "whisper_audio_transcriptions.tsv"),
														
 
															             sep="\t",
														
 
															             index=False,
														
 
															             encoding="utf-8",
														
--- a/src/seamless_communication/cli/eval_utils/lang_mapping.py
+++ b/src/seamless_communication/cli/eval_utils/lang_mapping.py
@@ -174,4 +174,3 @@ LANG2_LANG3 = {
 
															     "tk": "tuk",
														
 
															 }
														
 
															 LANG3_LANG2 = {v: k for k, v in LANG2_LANG3.items()}
														
 
															-
														
--- a/src/seamless_communication/cli/m4t/__init__.py
+++ b/src/seamless_communication/cli/m4t/__init__.py
--- a/src/seamless_communication/cli/m4t/audio_to_units/README.md
+++ b/src/seamless_communication/cli/m4t/audio_to_units/README.md
--- a/src/seamless_communication/cli/m4t/audio_to_units/__init__.py
+++ b/src/seamless_communication/cli/m4t/audio_to_units/__init__.py
--- a/src/seamless_communication/cli/m4t/audio_to_units/audio_to_units.py
+++ b/src/seamless_communication/cli/m4t/audio_to_units/audio_to_units.py
@@ -5,9 +5,10 @@
 
															 import argparse
														
 
															 import logging
														
 
															+
														
 
															 import torch
														
 
															-from seamless_communication.models.unit_extraction import UnitExtractor
														
 
															+from seamless_communication.models.unit_extractor import UnitExtractor
														
 
															 logging.basicConfig(level=logging.INFO)
														
 
															 logger = logging.getLogger(__name__)
														
--- a/src/seamless_communication/cli/m4t/evaluate/README.md
+++ b/src/seamless_communication/cli/m4t/evaluate/README.md
--- a/src/seamless_communication/cli/m4t/evaluate/__init__.py
+++ b/src/seamless_communication/cli/m4t/evaluate/__init__.py
--- a/src/seamless_communication/cli/m4t/evaluate/evaluate.py
+++ b/src/seamless_communication/cli/m4t/evaluate/evaluate.py
@@ -9,33 +9,31 @@ import contextlib
 
															 import itertools
														
 
															 import logging
														
 
															 import subprocess
														
 
															-import torch
														
 
															-import torchaudio
														
 
															-
														
 
															 from argparse import Namespace
														
 
															 from dataclasses import dataclass
														
 
															 from pathlib import Path
														
 
															-from torch import Tensor
														
 
															-from tqdm import tqdm
														
 
															-from typing import List, Optional, Tuple, Dict
														
 
															+from typing import Dict, List, Optional, Tuple
														
 
															+import torch
														
 
															+import torchaudio
														
 
															 from fairseq2.data import Collater, DataPipeline, FileMapper
														
 
															 from fairseq2.data.audio import AudioDecoder, WaveformToFbankConverter
														
 
															 from fairseq2.data.text import StrSplitter, TextTokenizer, read_text
														
 
															 from fairseq2.data.typing import StringLike
														
 
															 from fairseq2.generation import SequenceGeneratorOptions
														
 
															-from fairseq2.typing import Device, DataType
														
 
															+from fairseq2.typing import DataType, Device
														
 
															+from torch import Tensor
														
 
															+from tqdm import tqdm
														
 
															-from m4t_scripts.predict import add_inference_arguments, set_generation_opts
														
 
															-from seamless_communication.models.inference import (
														
 
															-    BatchedSpeechOutput,
														
 
															-    Modality,
														
 
															-    Translator,
														
 
															-)
														
 
															-from seamless_communication.models.unity import load_unity_text_tokenizer
														
 
															-from scripts.eval_utils.compute_metrics import (
														
 
															+from seamless_communication.cli.eval_utils.compute_metrics import (
														
 
															     compute_quality_metrics,
														
 
															 )
														
 
															+from seamless_communication.cli.predict import (
														
 
															+    add_inference_arguments,
														
 
															+    set_generation_opts,
														
 
															+)
														
 
															+from seamless_communication.inference import BatchedSpeechOutput, Modality, Translator
														
 
															+from seamless_communication.models.unity import load_unity_text_tokenizer
														
 
															 logging.basicConfig(
														
 
															     level=logging.INFO,
														
@@ -247,9 +245,9 @@ def run_eval(
 
															     ) as unit_file:
														
 
															         sample_id = 0
														
 
															         if ctx.output_modality == Modality.SPEECH:
														
 
															-            hyp_file.write(f"ref_tgt_text\tpred_tgt_text\tpred_tgt_audio\n")
														
 
															+            hyp_file.write("ref_tgt_text\tpred_tgt_text\tpred_tgt_audio\n")
														
 
															         else:
														
 
															-            hyp_file.write(f"ref_tgt_text\tpred_tgt_text\n")
														
 
															+            hyp_file.write("ref_tgt_text\tpred_tgt_text\n")
														
 
															         for example in pipeline:
														
 
															             valid_sequences: Optional[Tensor] = None
														
 
															             if ctx.input_modality == Modality.SPEECH:
														
@@ -302,7 +300,6 @@ def run_eval(
 
															             refs = [str(s) for s in example[ctx.ref_field]]
														
 
															             for i in range(len(text_output)):
														
 
															-                t = text_output[i]
														
 
															                 if ctx.output_modality == Modality.SPEECH:
														
 
															                     assert speech_output is not None
														
 
															                     u = speech_output.units[i]
														
--- a/src/seamless_communication/cli/m4t/finetune/README.md
+++ b/src/seamless_communication/cli/m4t/finetune/README.md
--- a/src/seamless_communication/cli/m4t/finetune/__init__.py
+++ b/src/seamless_communication/cli/m4t/finetune/__init__.py
--- a/src/seamless_communication/cli/m4t/finetune/dataloader.py
+++ b/src/seamless_communication/cli/m4t/finetune/dataloader.py
--- a/src/seamless_communication/cli/m4t/finetune/dataset.py
+++ b/src/seamless_communication/cli/m4t/finetune/dataset.py
@@ -18,7 +18,7 @@ from seamless_communication.datasets.huggingface import (
 
															     Speech2SpeechFleursDatasetBuilder,
														
 
															     SpeechTokenizer,
														
 
															 )
														
 
															-from seamless_communication.models.unit_extraction import UnitExtractor
														
 
															+from seamless_communication.models.unit_extractor import UnitExtractor
														
 
															 logging.basicConfig(
														
 
															     level=logging.INFO,
														
--- a/src/seamless_communication/cli/m4t/finetune/dist_utils.py
+++ b/src/seamless_communication/cli/m4t/finetune/dist_utils.py
--- a/src/seamless_communication/cli/m4t/finetune/finetune.py
+++ b/src/seamless_communication/cli/m4t/finetune/finetune.py
@@ -11,8 +11,8 @@ from pathlib import Path
 
															 import torch
														
 
															 from fairseq2.models.nllb.tokenizer import NllbTokenizer
														
 
															-from m4t_scripts.finetune import dataloader, dist_utils, trainer
														
 
															+from seamless_communication.cli.m4t.finetune import dataloader, dist_utils, trainer
														
 
															 from seamless_communication.models.unity import (
														
 
															     UnitTokenizer,
														
 
															     UnitYModel,
														
--- a/src/seamless_communication/cli/m4t/finetune/trainer.py
+++ b/src/seamless_communication/cli/m4t/finetune/trainer.py
@@ -15,12 +15,14 @@ from typing import Optional, Tuple
 
															 import torch
														
 
															 import torch.distributed as dist
														
 
															 import torch.nn as nn
														
 
															+from fairseq2.data import VocabularyInfo
														
 
															 from fairseq2.models.sequence import SequenceModelOutput
														
 
															+from fairseq2.nn.padding import PaddingMask
														
 
															 from fairseq2.optim.lr_scheduler import MyleLR
														
 
															 from fairseq2.typing import Device
														
 
															-from m4t_scripts.finetune import dataloader, dist_utils
														
 
															 from torch.optim import Adam
														
 
															+from seamless_communication.cli.finetune import dataloader, dist_utils
														
 
															 from seamless_communication.models.unity import UnitYModel
														
 
															 logger = logging.getLogger(__name__)
														
@@ -136,12 +138,12 @@ class CalcLoss:
 
															     def __init__(
														
 
															         self,
														
 
															         label_smoothing: float,
														
 
															-        s2t_pad_idx: Optional[int],
														
 
															-        t2u_pad_idx: Optional[int],
														
 
															+        s2t_vocab_info: VocabularyInfo,
														
 
															+        t2u_vocab_info: VocabularyInfo,
														
 
															     ):
														
 
															         self.label_smoothing = label_smoothing
														
 
															-        self.s2t_pad_idx = s2t_pad_idx
														
 
															-        self.t2u_pad_idx = t2u_pad_idx
														
 
															+        self.s2t_vocab_info = s2t_vocab_info
														
 
															+        self.t2u_vocab_info = t2u_vocab_info
														
 
															     def __call__(
														
 
															         self,
														
@@ -154,7 +156,7 @@ class CalcLoss:
 
															             text_logits.device
														
 
															         )
														
 
															         s2t_loss = SequenceModelOutput(
														
 
															-            logits=text_logits, pad_idx=self.s2t_pad_idx
														
 
															+            logits=text_logits, vocab_info=self.s2t_vocab_info
														
 
															         ).compute_loss(
														
 
															             targets=batch.speech_to_text.target_tokens.to(text_logits.device),
														
 
															             ignore_prefix_size=1,
														
@@ -165,7 +167,7 @@ class CalcLoss:
 
															         assert batch.text_to_units.target_lengths is not None
														
 
															         s2u_numel = torch.sum(batch.text_to_units.target_lengths).to(unit_logits.device)
														
 
															         s2u_loss = SequenceModelOutput(
														
 
															-            logits=unit_logits, pad_idx=self.t2u_pad_idx
														
 
															+            logits=unit_logits, vocab_info=self.t2u_vocab_info
														
 
															         ).compute_loss(
														
 
															             targets=batch.text_to_units.target_tokens.to(unit_logits.device),
														
 
															             ignore_prefix_size=1,
														
@@ -227,8 +229,8 @@ class UnitYFinetune:
 
															         assert model.t2u_model is not None
														
 
															         self.calc_loss = CalcLoss(
														
 
															             label_smoothing=self.params.label_smoothing,
														
 
															-            s2t_pad_idx=model.pad_idx,
														
 
															-            t2u_pad_idx=model.t2u_model.pad_idx,
														
 
															+            s2t_vocab_info=model.target_vocab_info,
														
 
															+            t2u_vocab_info=model.t2u_model.target_vocab_info,
														
 
															         )
														
 
															         self.model = self._wrap_model_for_trainining(model=model)
														
 
															         self.train_data_loader = train_data_loader
														
--- a/src/seamless_communication/cli/m4t/predict/README.md
+++ b/src/seamless_communication/cli/m4t/predict/README.md
--- a/src/seamless_communication/cli/m4t/predict/__init__.py
+++ b/src/seamless_communication/cli/m4t/predict/__init__.py
@@ -4,7 +4,9 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-from m4t_scripts.predict.predict import (
														
 
															+from seamless_communication.cli.m4t.predict.predict import (
														
 
															     add_inference_arguments as add_inference_arguments,
														
 
															 )
														
 
															-from m4t_scripts.predict.predict import set_generation_opts as set_generation_opts
														
 
															+from seamless_communication.cli.m4t.predict.predict import (
														
 
															+    set_generation_opts as set_generation_opts,
														
 
															+)
														
--- a/src/seamless_communication/cli/m4t/predict/predict.py
+++ b/src/seamless_communication/cli/m4t/predict/predict.py
@@ -5,17 +5,14 @@
 
															 import argparse
														
 
															 import logging
														
 
															+from argparse import Namespace
														
 
															+from typing import Tuple
														
 
															+
														
 
															 import torch
														
 
															 import torchaudio
														
 
															-
														
 
															-from argparse import Namespace
														
 
															 from fairseq2.generation import SequenceGeneratorOptions
														
 
															-from seamless_communication.models.inference import (
														
 
															-    NGramRepeatBlockProcessor,
														
 
															-    Translator,
														
 
															-)
														
 
															-from typing import Tuple
														
 
															+from seamless_communication.inference import NGramRepeatBlockProcessor, Translator
														
 
															 logging.basicConfig(
														
 
															     level=logging.INFO,
														
@@ -152,7 +149,7 @@ def set_generation_opts(
 
															         ),
														
 
															     )
														
 
															     if args.text_generation_ngram_blocking:
														
 
															-        text_generation_opts.logits_processor = NGramRepeatBlockProcessor(
														
 
															+        text_generation_opts.step_processor = NGramRepeatBlockProcessor(
														
 
															             no_repeat_ngram_size=args.no_repeat_ngram_size
														
 
															         )
														
@@ -164,7 +161,7 @@ def set_generation_opts(
 
															         ),
														
 
															     )
														
 
															     if args.unit_generation_ngram_blocking:
														
 
															-        unit_generation_opts.logits_processor = NGramRepeatBlockProcessor(
														
 
															+        unit_generation_opts.step_processor = NGramRepeatBlockProcessor(
														
 
															             no_repeat_ngram_size=args.no_repeat_ngram_size
														
 
															         )
														
 
															     return text_generation_opts, unit_generation_opts
														
--- a/src/seamless_communication/cli/m4t/train/__init__.py
+++ b/src/seamless_communication/cli/m4t/train/__init__.py
--- a/src/seamless_communication/cli/m4t/train/configs.py
+++ b/src/seamless_communication/cli/m4t/train/configs.py
@@ -4,10 +4,10 @@
 
															 # This source code is licensed under the BSD-style license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-import yaml
														
 
															-
														
 
															 from dataclasses import dataclass
														
 
															-from typing import Dict, Any, Union, get_origin, get_args, List, Literal, Optional
														
 
															+from typing import Any, Dict, List, Literal, Optional, Union, get_args, get_origin
														
 
															+
														
 
															+import yaml
														
 
															 @dataclass
														
--- a/src/seamless_communication/cli/m4t/train/dataloader.py
+++ b/src/seamless_communication/cli/m4t/train/dataloader.py
@@ -5,15 +5,12 @@
 
															 # LICENSE file in the root directory of this source tree.
														
 
															+import ctypes
														
 
															 import logging
														
 
															 import os
														
 
															 from typing import Any, Dict, Iterator, List, NamedTuple, Optional, Tuple, Union
														
 
															-import ctypes
														
 
															 import torch
														
 
															-from m4t_scripts.train.configs import AudioProcessingConfig, DataLoadingConfig
														
 
															-from torch import Tensor
														
 
															-
														
 
															 from fairseq2.data import (
														
 
															     CollateOptionsOverride,
														
 
															     Collater,
														
@@ -24,6 +21,12 @@ from fairseq2.data import (
 
															 from fairseq2.data.audio import AudioDecoder, WaveformToFbankConverter
														
 
															 from fairseq2.data.text import SentencePieceEncoder, StrSplitter, read_text
														
 
															 from fairseq2.models.nllb.tokenizer import NllbTokenizer
														
 
															+from torch import Tensor
														
 
															+
														
 
															+from seamless_communication.cli.m4t.train.configs import (
														
 
															+    AudioProcessingConfig,
														
 
															+    DataLoadingConfig,
														
 
															+)
														
 
															 from seamless_communication.models.tokenizer import SPMTokenizer
														
 
															 from seamless_communication.models.unity import (
														
 
															     UnitTokenizer,
														
@@ -419,15 +422,15 @@ class UnityDataLoader:
 
															             overrides=[
														
 
															                 CollateOptionsOverride(
														
 
															                     selector=f"{self.ROOT_COLUMN}.{self.AUDIO_COLUMN_NAME}.data.fbank",
														
 
															-                    pad_idx=self.config.fbank_feats_pad_idx,
														
 
															+                    pad_value=self.config.fbank_feats_pad_idx,
														
 
															                 ),
														
 
															                 CollateOptionsOverride(
														
 
															                     selector=f"{self.ROOT_COLUMN}.{self.TARGET_TEXT_COLUMN}",
														
 
															-                    pad_idx=self.text_tokenizer.vocab_info.pad_idx,
														
 
															+                    pad_value=self.text_tokenizer.vocab_info.pad_idx,
														
 
															                 ),
														
 
															                 CollateOptionsOverride(
														
 
															                     selector=f"{self.ROOT_COLUMN}.{self.TARGET_UNITS_COLUMN}",
														
 
															-                    pad_idx=self.unit_tokenizer.vocab_info.pad_idx,
														
 
															+                    pad_value=self.unit_tokenizer.vocab_info.pad_idx,
														
 
															                 ),
														
 
															             ],
														
 
															         )
														
--- a/src/seamless_communication/cli/m4t/train/dist_utils.py
+++ b/src/seamless_communication/cli/m4t/train/dist_utils.py
--- a/src/seamless_communication/cli/m4t/train/model.py
+++ b/src/seamless_communication/cli/m4t/train/model.py
@@ -7,27 +7,26 @@
 
															 import logging
														
 
															 import os
														
 
															-from typing import Dict, Any
														
 
															+from typing import Any, Dict
														
 
															 import torch
														
 
															-from m4t_scripts.train.configs import CustomModelParams, ModelConfig
														
 
															+from fairseq2.data import VocabularyInfo
														
 
															+from fairseq2.models.nllb.builder import NllbConfig
														
 
															+from fairseq2.models.nllb.loader import NllbLoader
														
 
															+from fairseq2.models.utils.checkpoint_loader import convert_model_state_dict
														
 
															+from fairseq2.models.wav2vec2 import Wav2Vec2EncoderConfig
														
 
															+from fairseq2.models.wav2vec2.loader import Wav2Vec2Loader
														
 
															+from fairseq2.nn.transformer import TransformerNormOrder
														
 
															+from seamless_communication.cli.m4t.train.configs import CustomModelParams, ModelConfig
														
 
															 from seamless_communication.models.unity import (
														
 
															     UnitYConfig,
														
 
															     UnitYModel,
														
 
															-    load_unity_model,
														
 
															+    UnitYT2UConfig,
														
 
															     create_unity_model,
														
 
															+    load_unity_model,
														
 
															 )
														
 
															-from seamless_communication.models.unity.loader import load_unity_config
														
 
															-from seamless_communication.models.unity import UnitYT2UConfig
														
 
															-from fairseq2.nn.transformer import TransformerNormOrder
														
 
															-from fairseq2.models.wav2vec2 import Wav2Vec2EncoderConfig
														
 
															-from fairseq2.models.nllb.builder import NllbConfig
														
 
															-from fairseq2.models.utils.checkpoint_loader import convert_model_state_dict
														
 
															-from fairseq2.models.wav2vec2.loader import Wav2Vec2Loader
														
 
															-from seamless_communication.models.unity.loader import UnitYLoader
														
 
															-
														
 
															-from fairseq2.models.nllb.loader import NllbLoader
														
 
															+from seamless_communication.models.unity.loader import UnitYLoader, load_unity_config
														
 
															 logger = logging.getLogger(__name__)
														
@@ -257,8 +256,13 @@ class ModelBuilder:
 
															             mt_model_config=NllbConfig(
														
 
															                 model_dim=config.model_embed_dim,
														
 
															                 max_seq_len=1024,
														
 
															-                vocabulary_size=config.nllb_vocabulary_size,  # num_tokens + langs + spec symbols
														
 
															-                pad_idx=0,
														
 
															+                vocab_info=VocabularyInfo(
														
 
															+                    size=config.nllb_vocabulary_size,
														
 
															+                    unk_idx=1,
														
 
															+                    bos_idx=2,
														
 
															+                    eos_idx=3,
														
 
															+                    pad_idx=0,
														
 
															+                ),
														
 
															                 num_encoder_layers=config.nllb_encoder_layers,
														
 
															                 num_decoder_layers=config.nllb_decoder_layers,
														
 
															                 num_encoder_attn_heads=16,
														
@@ -269,8 +273,13 @@ class ModelBuilder:
 
															             t2u_config=UnitYT2UConfig(
														
 
															                 model_dim=config.model_embed_dim,
														
 
															                 unit_max_seq_len=2048,
														
 
															-                unit_vocabulary_size=config.unit_vocabulary_size,
														
 
															-                unit_pad_idx=1,
														
 
															+                target_vocab_info=VocabularyInfo(
														
 
															+                    size=config.unit_vocabulary_size,
														
 
															+                    unk_idx=3,
														
 
															+                    bos_idx=0,
														
 
															+                    eos_idx=2,
														
 
															+                    pad_idx=1,
														
 
															+                ),
														
 
															                 num_encoder_layers=config.t2u_encoder_layers,
														
 
															                 num_decoder_layers=config.t2u_decoder_layers,
														
 
															                 nar_decoder_frontend_config=None,
														
--- a/src/seamless_communication/cli/m4t/train/recipes/asr_small.yaml
+++ b/src/seamless_communication/cli/m4t/train/recipes/asr_small.yaml
--- a/src/seamless_communication/cli/m4t/train/recipes/asr_small_wh_transc.yaml
+++ b/src/seamless_communication/cli/m4t/train/recipes/asr_small_wh_transc.yaml
--- a/src/seamless_communication/cli/m4t/train/recipes/large_M4T_v1.yaml
+++ b/src/seamless_communication/cli/m4t/train/recipes/large_M4T_v1.yaml
--- a/src/seamless_communication/cli/m4t/train/recipes/m4t_v1_train_manifests.txt
+++ b/src/seamless_communication/cli/m4t/train/recipes/m4t_v1_train_manifests.txt
--- a/src/seamless_communication/cli/m4t/train/run_training.py
+++ b/src/seamless_communication/cli/m4t/train/run_training.py
@@ -15,11 +15,12 @@ from typing import List
 
															 import torch
														
 
															 import yaml
														
 
															-from m4t_scripts.train import dataloader as _dataloader
														
 
															-from m4t_scripts.train import dist_utils
														
 
															-from m4t_scripts.train import model as _model
														
 
															-from m4t_scripts.train import trainer as _trainer
														
 
															-from m4t_scripts.train.configs import WorkflowParams
														
 
															+
														
 
															+from seamless_communication.cli.m4t.train import dataloader as _dataloader
														
 
															+from seamless_communication.cli.m4t.train import dist_utils
														
 
															+from seamless_communication.cli.m4t.train import model as _model
														
 
															+from seamless_communication.cli.m4t.train import trainer as _trainer
														
 
															+from seamless_communication.cli.m4t.train.configs import WorkflowParams
														
 
															 logging_format = f"%(asctime)s - {platform.node()} - %(process)s - %(levelname)s - %(name)s: %(message)s"
														
 
															 logging.basicConfig(
														
--- a/src/seamless_communication/cli/m4t/train/run_with_slurm.py
+++ b/src/seamless_communication/cli/m4t/train/run_with_slurm.py
@@ -7,7 +7,6 @@ import subprocess
 
															 import time
														
 
															 from pathlib import Path
														
 
															-
														
 
															 logging_format = f"%(asctime)s - {platform.node()} - %(process)s - %(levelname)s - %(name)s: %(message)s"
														
 
															 logging.basicConfig(
														
 
															     level=logging.INFO,
														
--- a/src/seamless_communication/cli/m4t/train/trainer.py
+++ b/src/seamless_communication/cli/m4t/train/trainer.py
@@ -6,21 +6,22 @@
 
															 import logging
														
 
															-from typing import Any, Optional, Tuple, Dict, List
														
 
															-
														
 
															 import os
														
 
															 import time
														
 
															+from typing import Any, Dict, List, Optional, Tuple
														
 
															+
														
 
															 import torch
														
 
															 import torch.distributed as dist
														
 
															 import torch.nn as nn
														
 
															+from fairseq2.data import VocabularyInfo
														
 
															 from fairseq2.models.sequence import SequenceModelOutput
														
 
															 from fairseq2.nn.padding import PaddingMask
														
 
															 from fairseq2.optim.lr_scheduler import MyleLR
														
 
															-from m4t_scripts.train import dataloader, dist_utils
														
 
															 from torch.optim import Adam
														
 
															+from seamless_communication.cli.m4t.train import dataloader, dist_utils
														
 
															+from seamless_communication.cli.m4t.train.configs import TrainingParams
														
 
															 from seamless_communication.models.unity import UnitYModel, UnitYT2UModel
														
 
															-from m4t_scripts.train.configs import TrainingParams
														
 
															 logger = logging.getLogger(__name__)
														
@@ -67,7 +68,10 @@ class UnitYTrainWrapper(nn.Module):
 
															         )
														
 
															         text_logits = self.model.final_proj(text_decoder_out)
														
 
															         # t2u
														
 
															-        (unit_encoder_out, unit_encoder_padding_mask,) = self.t2u.encode(
														
 
															+        (
														
 
															+            unit_encoder_out,
														
 
															+            unit_encoder_padding_mask,
														
 
															+        ) = self.t2u.encode(
														
 
															             text_decoder_output=text_decoder_out,
														
 
															             text_decoder_padding_mask=text_decoder_padding_mask,
														
 
															         )
														
@@ -91,13 +95,13 @@ class CalcLoss:
 
															     def __init__(
														
 
															         self,
														
 
															         label_smoothing: float,
														
 
															-        s2t_pad_idx: Optional[int],
														
 
															-        t2u_pad_idx: Optional[int],
														
 
															+        s2t_vocab_info: VocabularyInfo,
														
 
															+        t2u_vocab_info: VocabularyInfo,
														
 
															         s2t_skip_langtok_loss: bool = False,
														
 
															     ):
														
 
															         self.label_smoothing = label_smoothing
														
 
															-        self.s2t_pad_idx = s2t_pad_idx
														
 
															-        self.t2u_pad_idx = t2u_pad_idx
														
 
															+        self.s2t_vocab_info = s2t_vocab_info
														
 
															+        self.t2u_vocab_info = t2u_vocab_info
														
 
															         self.s2t_ignore_prefix_size = 1 if s2t_skip_langtok_loss else 0
														
 
															         self.t2u_ignore_prefix_size = 1
														
@@ -112,7 +116,7 @@ class CalcLoss:
 
															             text_logits.device
														
 
															         )
														
 
															         s2t_loss = SequenceModelOutput(
														
 
															-            logits=text_logits, pad_idx=self.s2t_pad_idx
														
 
															+            logits=text_logits, vocab_info=self.s2t_vocab_info
														
 
															         ).compute_loss(
														
 
															             targets=batch.speech_to_text.target_tokens.to(text_logits.device),
														
 
															             ignore_prefix_size=self.s2t_ignore_prefix_size,
														
@@ -121,7 +125,7 @@ class CalcLoss:
 
															         assert batch.text_to_units.target_lengths is not None
														
 
															         s2u_numel = torch.sum(batch.text_to_units.target_lengths).to(unit_logits.device)
														
 
															         s2u_loss = SequenceModelOutput(
														
 
															-            logits=unit_logits, pad_idx=self.t2u_pad_idx
														
 
															+            logits=unit_logits, vocab_info=self.t2u_vocab_info
														
 
															         ).compute_loss(
														
 
															             targets=batch.text_to_units.target_tokens.to(unit_logits.device),
														
 
															             ignore_prefix_size=1,
														
@@ -192,8 +196,8 @@ class UnitYTrainer:
 
															         assert model.t2u_model is not None
														
 
															         self.calc_loss = CalcLoss(
														
 
															             label_smoothing=self.params.label_smoothing,
														
 
															-            s2t_pad_idx=model.pad_idx,
														
 
															-            t2u_pad_idx=model.t2u_model.pad_idx,
														
 
															+            s2t_vocab_info=model.target_vocab_info,
														
 
															+            t2u_vocab_info=model.t2u_model.target_vocab_info,
														
 
															         )
														
 
															         self._try_load_checkpoint(model=model)
														
 
															         self.model = self._wrap_model_for_trainining(model=model)
														
--- a/src/seamless_communication/inference/__init__.py
+++ b/src/seamless_communication/inference/__init__.py
@@ -0,0 +1,16 @@
 
															+# Copyright (c) Meta Platforms, Inc. and affiliates.
														
 
															+# All rights reserved.
														
 
															+#
														
 
															+# This source code is licensed under the license found in the
														
 
															+# LICENSE file in the root directory of this source tree.
														
 
															+
														
 
															+from seamless_communication.inference.generator import UnitYGenerator as UnitYGenerator
														
 
															+from seamless_communication.inference.ngram_repeat_block_processor import (
														
 
															+    NGramRepeatBlockProcessor as NGramRepeatBlockProcessor,
														
 
															+)
														
 
															+from seamless_communication.inference.translator import (
														
 
															+    BatchedSpeechOutput as BatchedSpeechOutput,
														
 
															+)
														
 
															+from seamless_communication.inference.translator import Modality as Modality
														
 
															+from seamless_communication.inference.translator import Task as Task
														
 
															+from seamless_communication.inference.translator import Translator as Translator
														
--- a/src/seamless_communication/models/unity/generator.py
+++ b/src/seamless_communication/models/unity/generator.py
@@ -5,12 +5,9 @@
 
															 # LICENSE file in the root directory of this source tree.
														
 
															 from dataclasses import dataclass
														
 
															-from typing import Optional, Tuple, List
														
 
															+from typing import List, Optional, Tuple
														
 
															 import torch
														
 
															-
														
 
															-from torch import Tensor
														
 
															-from fairseq2.data import VocabularyInfo
														
 
															 from fairseq2.data.text import TextTokenizer
														
 
															 from fairseq2.generation import (
														
 
															     Seq2SeqGenerator,
														
@@ -21,11 +18,12 @@ from fairseq2.generation import (
 
															 )
														
 
															 from fairseq2.nn.padding import PaddingMask, apply_padding_mask
														
 
															 from fairseq2.nn.utils.module import infer_device
														
 
															+from torch import Tensor
														
 
															 from seamless_communication.models.unity.model import (
														
 
															     UnitYModel,
														
 
															-    UnitYX2TModel,
														
 
															     UnitYT2UModel,
														
 
															+    UnitYX2TModel,
														
 
															 )
														
 
															 from seamless_communication.models.unity.unit_tokenizer import (
														
 
															     UnitTokenDecoder,
														
@@ -35,7 +33,7 @@ from seamless_communication.models.unity.unit_tokenizer import (
 
															 def remove_consecutive_repeated_ngrams(
														
 
															     sequence: List[int], min_size: int = 1, max_size: int = 40
														
 
															-):
														
 
															+) -> List[int]:
														
 
															     assert 1 <= min_size <= max_size
														
 
															     drop_idx = set()  # indices that will be dropped from the sequence
														
@@ -188,7 +186,7 @@ class UnitYGenerator:
 
															             )
														
 
															         elif input_modality == "text" and self.t2t_generator is None:
														
 
															             raise ValueError(
														
 
															-                f"Please set use_text_encoder to True in your model config to encode text."
														
 
															+                "Please set use_text_encoder to True in your model config to encode text."
														
 
															             )
														
 
															         else:
														
 
															             raise ValueError(f"Unsupported input_modality: {input_modality}")
														
--- a/src/seamless_communication/models/inference/ngram_repeat_block_processor.py
+++ b/src/seamless_communication/models/inference/ngram_repeat_block_processor.py
@@ -4,10 +4,11 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-from fairseq2.generation import StepProcessor
														
 
															 from typing import List
														
 
															-from torch import Tensor
														
 
															+
														
 
															 import torch
														
 
															+from fairseq2.generation import StepProcessor
														
 
															+from torch import Tensor
														
 
															 class NGramRepeatBlockProcessor(StepProcessor):
														
--- a/src/seamless_communication/models/inference/translator.py
+++ b/src/seamless_communication/models/inference/translator.py
@@ -3,29 +3,31 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															+import logging
														
 
															 from dataclasses import dataclass
														
 
															 from enum import Enum, auto
														
 
															 from pathlib import Path
														
 
															-from torch import Tensor
														
 
															 from typing import Callable, List, Optional, Tuple, Union, cast
														
 
															-import logging
														
 
															 import torch
														
 
															 import torch.nn as nn
														
 
															-
														
 
															 from fairseq2.assets.card import AssetCard
														
 
															 from fairseq2.data import Collater, SequenceData
														
 
															 from fairseq2.data.audio import AudioDecoder, WaveformToFbankConverter
														
 
															 from fairseq2.data.text import TextTokenizer
														
 
															 from fairseq2.data.typing import StringLike
														
 
															-from fairseq2.generation import SequenceToTextOutput, SequenceGeneratorOptions
														
 
															+from fairseq2.generation import SequenceGeneratorOptions, SequenceToTextOutput
														
 
															 from fairseq2.memory import MemoryBlock
														
 
															 from fairseq2.nn.padding import get_seqs_and_padding_mask
														
 
															 from fairseq2.typing import DataType, Device
														
 
															+from torch import Tensor
														
 
															+from seamless_communication.inference.generator import (
														
 
															+    SequenceToUnitOutput,
														
 
															+    UnitYGenerator,
														
 
															+)
														
 
															 from seamless_communication.models.unity import (
														
 
															     UnitTokenizer,
														
 
															-    UnitYGenerator,
														
 
															     UnitYModel,
														
 
															     UnitYNART2UModel,
														
 
															     UnitYT2UModel,
														
@@ -33,9 +35,7 @@ from seamless_communication.models.unity import (
 
															     load_unity_text_tokenizer,
														
 
															     load_unity_unit_tokenizer,
														
 
															 )
														
 
															-from seamless_communication.models.unity.generator import SequenceToUnitOutput
														
 
															-from seamless_communication.models.vocoder import load_vocoder_model, Vocoder
														
 
															-
														
 
															+from seamless_communication.models.vocoder import Vocoder, load_vocoder_model
														
 
															 logging.basicConfig(
														
 
															     level=logging.INFO,
														
@@ -246,7 +246,7 @@ class Translator(nn.Module):
 
															                     audio = audio.unsqueeze(1)
														
 
															                 elif audio.dim() == 2 and audio.size(0) < audio.size(1):
														
 
															                     logger.warning(
														
 
															-                        f"Transposing audio tensor from (bsz, seq_len) -> (seq_len, bsz)."
														
 
															+                        "Transposing audio tensor from (bsz, seq_len) -> (seq_len, bsz)."
														
 
															                     )
														
 
															                     audio = audio.transpose(0, 1)
														
--- a/src/seamless_communication/models/inference/__init__.py
+++ b/src/seamless_communication/models/inference/__init__.py
@@ -1,14 +0,0 @@
 
															-# Copyright (c) Meta Platforms, Inc. and affiliates.
														
 
															-# All rights reserved.
														
 
															-#
														
 
															-# This source code is licensed under the license found in the
														
 
															-# LICENSE file in the root directory of this source tree.
														
 
															-from seamless_communication.models.inference.ngram_repeat_block_processor import (
														
 
															-    NGramRepeatBlockProcessor as NGramRepeatBlockProcessor,
														
 
															-)
														
 
															-from seamless_communication.models.inference.translator import (
														
 
															-    BatchedSpeechOutput as BatchedSpeechOutput,
														
 
															-)
														
 
															-from seamless_communication.models.inference.translator import Modality as Modality
														
 
															-from seamless_communication.models.inference.translator import Task as Task
														
 
															-from seamless_communication.models.inference.translator import Translator as Translator
														
--- a/src/seamless_communication/models/unit_extraction/__init__.py
+++ b/src/seamless_communication/models/unit_extraction/__init__.py
@@ -4,12 +4,12 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-from seamless_communication.models.unit_extraction.unit_extraction import (
														
 
															-    UnitExtractor as UnitExtractor,
														
 
															-)
														
 
															-from seamless_communication.models.unit_extraction.kmeans import (
														
 
															+from seamless_communication.models.unit_extractor.kmeans import (
														
 
															     KmeansModel as KmeansModel,
														
 
															 )
														
 
															-from seamless_communication.models.unit_extraction.wav2vec2_layer_output import (
														
 
															+from seamless_communication.models.unit_extractor.unit_extractor import (
														
 
															+    UnitExtractor as UnitExtractor,
														
 
															+)
														
 
															+from seamless_communication.models.unit_extractor.wav2vec2_layer_output import (
														
 
															     Wav2Vec2LayerOutputModel as Wav2Vec2LayerOutputModel,
														
 
															 )
														
--- a/src/seamless_communication/models/unit_extraction/kmeans.py
+++ b/src/seamless_communication/models/unit_extraction/kmeans.py
@@ -4,11 +4,11 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-import torch
														
 
															-from torch import Tensor, nn
														
 
															 import numpy as np
														
 
															+import torch
														
 
															+from fairseq2.assets import download_manager
														
 
															 from fairseq2.typing import Device
														
 
															-from seamless_communication.assets import download_manager
														
 
															+from torch import Tensor, nn
														
 
															 class KmeansModel(nn.Module):
														
--- a/src/seamless_communication/models/unit_extraction/unit_extraction.py
+++ b/src/seamless_communication/models/unit_extraction/unit_extraction.py
@@ -4,32 +4,29 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															+import logging
														
 
															 from itertools import groupby
														
 
															 from pathlib import Path
														
 
															-from torch import Tensor, nn
														
 
															-from typing import Union
														
 
															+from typing import List, Union
														
 
															-import logging
														
 
															 import torch
														
 
															 import torch.nn.functional as F
														
 
															-
														
 
															 from fairseq2.assets.card import AssetCard
														
 
															 from fairseq2.data import Collater
														
 
															 from fairseq2.data.audio import AudioDecoder
														
 
															 from fairseq2.memory import MemoryBlock
														
 
															-from fairseq2.nn.padding import get_seqs_and_padding_mask
														
 
															 from fairseq2.models.sequence import SequenceBatch
														
 
															-from fairseq2.models.wav2vec2 import Wav2Vec2Model
														
 
															+from fairseq2.models.wav2vec2 import Wav2Vec2Model, load_wav2vec2_model
														
 
															+from fairseq2.nn.padding import get_seqs_and_padding_mask
														
 
															 from fairseq2.typing import DataType, Device
														
 
															+from torch import Tensor, nn
														
 
															-from seamless_communication.models.unit_extraction.wav2vec2_layer_output import (
														
 
															-    load_wav2vec2_model,
														
 
															+from seamless_communication.inference import Translator
														
 
															+from seamless_communication.models.unit_extractor.kmeans import KmeansModel
														
 
															+from seamless_communication.models.unit_extractor.wav2vec2_layer_output import (
														
 
															     Wav2Vec2LayerOutputModel,
														
 
															 )
														
 
															-from seamless_communication.models.unit_extraction.kmeans import KmeansModel
														
 
															-from seamless_communication.models.inference import Translator
														
 
															-from seamless_communication.models.vocoder import load_vocoder_model, Vocoder
														
 
															-
														
 
															+from seamless_communication.models.vocoder import Vocoder, load_vocoder_model
														
 
															 logging.basicConfig(
														
 
															     level=logging.INFO,
														
@@ -77,7 +74,7 @@ class UnitExtractor(nn.Module):
 
															                 audio = audio.unsqueeze(1)
														
 
															             elif audio.dim() == 2 and audio.size(0) < audio.size(1):
														
 
															                 logger.warning(
														
 
															-                    f"Transposing audio tensor from (bsz, seq_len) -> (seq_len, bsz)."
														
 
															+                    "Transposing audio tensor from (bsz, seq_len) -> (seq_len, bsz)."
														
 
															                 )
														
 
															                 audio = audio.transpose(0, 1)
														
@@ -93,7 +90,7 @@ class UnitExtractor(nn.Module):
 
															         batch = SequenceBatch(seqs=seqs, padding_mask=padding_mask)
														
 
															         features = self.model(batch, out_layer_idx).squeeze(0)
														
 
															         units = self.kmeans_model(features)
														
 
															-        return units
														
 
															+        return units  # type: ignore[no-any-return]
														
 
															     @staticmethod
														
 
															     def resynthesize_audio(
														
@@ -102,7 +99,7 @@ class UnitExtractor(nn.Module):
 
															         device: Device,
														
 
															         vocoder_name: str = "vocoder_36langs",
														
 
															     ) -> Tensor:
														
 
															-        def reduce_list(lst):
														
 
															+        def reduce_list(lst: List[Tensor]) -> List[Tensor]:
														
 
															             return [key for key, _ in groupby(lst)]
														
 
															         reduced_units = reduce_list(units.cpu().tolist())
														
@@ -112,4 +109,4 @@ class UnitExtractor(nn.Module):
 
															         )
														
 
															         assert isinstance(vocoder, Vocoder)
														
 
															         wav = vocoder(reduced_units, src_lang, spkr=-1, dur_prediction=True)
														
 
															-        return wav
														
 
															+        return wav  # type: ignore[no-any-return]
														
--- a/src/seamless_communication/models/unit_extraction/wav2vec2_layer_output.py
+++ b/src/seamless_communication/models/unit_extraction/wav2vec2_layer_output.py
@@ -3,33 +3,21 @@
 
															 #
														
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-from fairseq2.nn.padding import PaddingMask
														
 
															-from fairseq2.nn.transformer import TransformerEncoder, TransformerNormOrder
														
 
															+from typing import Optional
														
 
															+
														
 
															+import torch
														
 
															+import torch.nn as nn
														
 
															+from fairseq2.models.sequence import SequenceBatch
														
 
															 from fairseq2.models.wav2vec2 import (
														
 
															-    Wav2Vec2EncoderConfig,
														
 
															     Wav2Vec2Config,
														
 
															-    wav2vec2_arch,
														
 
															-    Wav2Vec2Model,
														
 
															-    create_wav2vec2_model,
														
 
															+    Wav2Vec2EncoderConfig,
														
 
															     Wav2Vec2Frontend,
														
 
															+    Wav2Vec2Model,
														
 
															+    wav2vec2_arch,
														
 
															 )
														
 
															-from fairseq2.models.wav2vec2.loader import Wav2Vec2Loader
														
 
															-from fairseq2.models.utils.arch_registry import ArchitectureRegistry
														
 
															-from fairseq2.models.sequence import SequenceBatch
														
 
															-
														
 
															-
														
 
															-from seamless_communication.assets import asset_store, download_manager
														
 
															-
														
 
															-
														
 
															-import torch
														
 
															-from typing import Optional
														
 
															-
														
 
															+from fairseq2.nn.padding import PaddingMask
														
 
															+from fairseq2.nn.transformer import TransformerEncoder, TransformerNormOrder
														
 
															 from torch import Tensor
														
 
															-import torch.nn as nn
														
 
															-
														
 
															-
														
 
															-wav2vec2_archs = ArchitectureRegistry[Wav2Vec2Config]("wav2vec2")
														
 
															-wav2vec2_arch = wav2vec2_archs.marker
														
 
															 def _encoder_xlsr2_1b_v2() -> Wav2Vec2EncoderConfig:
														
@@ -87,14 +75,6 @@ def _xlsr2_1b_v2() -> Wav2Vec2Config:
 
															     )
														
 
															-load_wav2vec2_model = Wav2Vec2Loader(
														
 
															-    asset_store,
														
 
															-    download_manager,
														
 
															-    create_wav2vec2_model,
														
 
															-    wav2vec2_archs,
														
 
															-)
														
 
															-
														
 
															-
														
 
															 class Wav2Vec2LayerOutputModel(nn.Module):
														
 
															     encoder_frontend: Wav2Vec2Frontend
														
 
															     encoder: TransformerEncoder
														
--- a/src/seamless_communication/models/unity/__init__.py
+++ b/src/seamless_communication/models/unity/__init__.py
@@ -24,10 +24,10 @@ from seamless_communication.models.unity.length_regulator import (
 
															     HardUpsampling as HardUpsampling,
														
 
															 )
														
 
															 from seamless_communication.models.unity.length_regulator import (
														
 
															-    VariancePredictor as VariancePredictor,
														
 
															+    VarianceAdaptor as VarianceAdaptor,
														
 
															 )
														
 
															 from seamless_communication.models.unity.length_regulator import (
														
 
															-    VarianceAdaptor as VarianceAdaptor,
														
 
															+    VariancePredictor as VariancePredictor,
														
 
															 )
														
 
															 from seamless_communication.models.unity.loader import UnitYLoader as UnitYLoader
														
 
															 from seamless_communication.models.unity.loader import (
														
@@ -40,26 +40,26 @@ from seamless_communication.models.unity.loader import (
 
															     load_unity_unit_tokenizer as load_unity_unit_tokenizer,
														
 
															 )
														
 
															 from seamless_communication.models.unity.model import UnitYModel as UnitYModel
														
 
															-from seamless_communication.models.unity.model import UnitYX2TModel as UnitYX2TModel
														
 
															-from seamless_communication.models.unity.model import UnitYT2UModel as UnitYT2UModel
														
 
															 from seamless_communication.models.unity.model import (
														
 
															     UnitYNART2UModel as UnitYNART2UModel,
														
 
															 )
														
 
															 from seamless_communication.models.unity.model import UnitYOutput as UnitYOutput
														
 
															-from seamless_communication.models.unity.nar_decoder_frontend import (
														
 
															-    NARDecoderFrontend as NARDecoderFrontend,
														
 
															-)
														
 
															+from seamless_communication.models.unity.model import UnitYT2UModel as UnitYT2UModel
														
 
															+from seamless_communication.models.unity.model import UnitYX2TModel as UnitYX2TModel
														
 
															 from seamless_communication.models.unity.nar_decoder import (
														
 
															     NARTransformerDecoder as NARTransformerDecoder,
														
 
															 )
														
 
															+from seamless_communication.models.unity.nar_decoder_frontend import (
														
 
															+    NARDecoderFrontend as NARDecoderFrontend,
														
 
															+)
														
 
															 from seamless_communication.models.unity.nar_decoder_layer import (
														
 
															     NARTransformerDecoderLayer as NARTransformerDecoderLayer,
														
 
															 )
														
 
															 from seamless_communication.models.unity.t2u_builder import (
														
 
															-    UnitYT2UBuilder as UnitYT2UBuilder,
														
 
															+    UnitYNART2UBuilder as UnitYNART2UBuilder,
														
 
															 )
														
 
															 from seamless_communication.models.unity.t2u_builder import (
														
 
															-    UnitYNART2UBuilder as UnitYNART2UBuilder,
														
 
															+    UnitYT2UBuilder as UnitYT2UBuilder,
														
 
															 )
														
 
															 from seamless_communication.models.unity.t2u_builder import (
														
 
															     UnitYT2UConfig as UnitYT2UConfig,
														
@@ -82,6 +82,3 @@ from seamless_communication.models.unity.unit_tokenizer import (
 
															 from seamless_communication.models.unity.unit_tokenizer import (
														
 
															     UnitTokenizer as UnitTokenizer,
														
 
															 )
														
 
															-from seamless_communication.models.unity.generator import (
														
 
															-    UnitYGenerator as UnitYGenerator,
														
 
															-)
														
--- a/src/seamless_communication/models/unity/adaptor_block.py
+++ b/src/seamless_communication/models/unity/adaptor_block.py
@@ -14,7 +14,6 @@ from fairseq2.nn.padding import PaddingMask
 
															 from fairseq2.nn.projection import Linear
														
 
															 from fairseq2.nn.transformer import (
														
 
															     AttentionMask,
														
 
															-    EncoderLayerOutputHook,
														
 
															     FeedForwardNetwork,
														
 
															     LayerNormFactory,
														
 
															     MultiheadAttention,
														
--- a/src/seamless_communication/models/unity/builder.py
+++ b/src/seamless_communication/models/unity/builder.py
@@ -5,9 +5,8 @@
 
															 # LICENSE file in the root directory of this source tree.
														
 
															 from dataclasses import dataclass
														
 
															-from typing import Union, Optional
														
 
															+from typing import Optional, Union
														
 
															-from fairseq2.data import VocabularyInfo
														
 
															 from fairseq2.models.conformer import ConformerBlock, ConformerConvolution
														
 
															 from fairseq2.models.nllb import NllbBuilder, NllbConfig, nllb_archs
														
 
															 from fairseq2.models.utils.arch_registry import ArchitectureRegistry
														
@@ -24,7 +23,6 @@ from fairseq2.nn.transformer import (
 
															 )
														
 
															 from fairseq2.typing import DataType, Device
														
 
															-
														
 
															 from seamless_communication.models.unity.adaptor_block import (
														
 
															     UnitYConformerAdaptorLayer,
														
 
															     UnitYEncoderAdaptor,
														
@@ -32,15 +30,15 @@ from seamless_communication.models.unity.adaptor_block import (
 
															 )
														
 
															 from seamless_communication.models.unity.model import UnitYModel
														
 
															 from seamless_communication.models.unity.t2u_builder import (
														
 
															-    UnitYT2UBuilder,
														
 
															     UnitYNART2UBuilder,
														
 
															+    UnitYT2UBuilder,
														
 
															     UnitYT2UConfig,
														
 
															     unity_t2u_archs,
														
 
															 )
														
 
															 from seamless_communication.models.wav2vec2_chunk import (
														
 
															-    wav2vec2_chunk_archs,
														
 
															     Wav2Vec2ChunkEncoderBuilder,
														
 
															     Wav2Vec2ChunkEncoderConfig,
														
 
															+    wav2vec2_chunk_archs,
														
 
															 )
														
--- a/src/seamless_communication/models/unity/char_tokenizer.py
+++ b/src/seamless_communication/models/unity/char_tokenizer.py
@@ -6,7 +6,12 @@
 
															 from typing import Optional, Union, final
														
 
															-from fairseq2.assets import AssetStore, AssetDownloadManager, download_manager
														
 
															+from fairseq2.assets import (
														
 
															+    AssetDownloadManager,
														
 
															+    AssetStore,
														
 
															+    asset_store,
														
 
															+    download_manager,
														
 
															+)
														
 
															 from fairseq2.assets.card import AssetCard
														
 
															 from fairseq2.data.text import (
														
 
															     SentencePieceDecoder,
														
@@ -20,8 +25,6 @@ from fairseq2.data.text import (
 
															 from fairseq2.data.typing import PathLike
														
 
															 from fairseq2.typing import Device, finaloverride
														
 
															-from seamless_communication.assets import asset_store
														
 
															-
														
 
															 @final
														
 
															 class CharTokenizer(TextTokenizer):
														
--- a/src/seamless_communication/models/unity/length_regulator.py
+++ b/src/seamless_communication/models/unity/length_regulator.py
@@ -3,18 +3,16 @@
 
															 #
														
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-import torch
														
 
															-
														
 
															-from torch import Tensor
														
 
															-from torch.nn import Conv1d, Dropout, Module, ReLU, Sequential
														
 
															-
														
 
															 from typing import Optional, Tuple
														
 
															-from fairseq2.typing import DataType, Device
														
 
															-from fairseq2.nn.transformer import create_standard_layer_norm
														
 
															+import torch
														
 
															 from fairseq2.nn.normalization import LayerNorm
														
 
															 from fairseq2.nn.padding import PaddingMask, apply_padding_mask
														
 
															 from fairseq2.nn.projection import Linear
														
 
															+from fairseq2.nn.transformer import create_standard_layer_norm
														
 
															+from fairseq2.typing import DataType, Device
														
 
															+from torch import Tensor
														
 
															+from torch.nn import Conv1d, Dropout, Module, ReLU, Sequential
														
 
															 class HardUpsampling(Module):
														
--- a/src/seamless_communication/models/unity/loader.py
+++ b/src/seamless_communication/models/unity/loader.py
@@ -7,10 +7,14 @@
 
															 from typing import Any, Dict, List, Mapping, Union, final
														
 
															 import torch
														
 
															-from fairseq2.assets import AssetStore, download_manager
														
 
															+from fairseq2.assets import AssetStore, asset_store, download_manager
														
 
															 from fairseq2.assets.card import AssetCard
														
 
															 from fairseq2.models.nllb import NllbConfig
														
 
															 from fairseq2.models.nllb.loader import NllbTokenizerLoader
														
 
															+from fairseq2.models.utils.checkpoint_loader import upgrade_fairseq_checkpoint
														
 
															+from fairseq2.models.utils.model_loader import ModelConfigLoader, ModelLoader
														
 
															+from overrides import override as finaloverride
														
 
															+
														
 
															 from seamless_communication.models.unity.builder import (
														
 
															     UnitYConfig,
														
 
															     create_unity_model,
														
@@ -19,11 +23,6 @@ from seamless_communication.models.unity.builder import (
 
															 from seamless_communication.models.unity.char_tokenizer import load_unity_char_tokenizer
														
 
															 from seamless_communication.models.unity.model import UnitYModel
														
 
															 from seamless_communication.models.unity.unit_tokenizer import UnitTokenizer
														
 
															-from fairseq2.models.utils.checkpoint_loader import upgrade_fairseq_checkpoint
														
 
															-from fairseq2.models.utils.model_loader import ModelConfigLoader, ModelLoader
														
 
															-from overrides import override as finaloverride
														
 
															-
														
 
															-from seamless_communication.assets import asset_store
														
 
															 @final
														
@@ -71,8 +70,8 @@ class UnitYLoader(ModelLoader[UnitYModel, UnitYConfig]):
 
															         # Remnant of wav2vec2 pretraining, not needed for eval or fine-tuning.
														
 
															         keys_to_delete.append(f"{encoder_key}.w2v_encoder.w2v_model.mask_emb")
														
 
															-        keys_to_delete.append(f"decoder.char_upsampler.embed_positions._float_tensor")
														
 
															-        keys_to_delete.append(f"decoder.char_upsampler.embed_tokens_char.weight")
														
 
															+        keys_to_delete.append("decoder.char_upsampler.embed_positions._float_tensor")
														
 
															+        keys_to_delete.append("decoder.char_upsampler.embed_tokens_char.weight")
														
 
															         # Delete AlignmentEncoder keys for inference.
														
 
															         alignment_encoder_keys = [
														
--- a/src/seamless_communication/models/unity/nar_decoder.py
+++ b/src/seamless_communication/models/unity/nar_decoder.py
@@ -6,17 +6,14 @@
 
															 from typing import Iterable, Optional, Tuple, final
														
 
															-from torch import Tensor
														
 
															-from torch.nn import Module
														
 
															-
														
 
															 from fairseq2.nn.module_list import ModuleList
														
 
															 from fairseq2.nn.normalization import LayerNorm
														
 
															 from fairseq2.nn.padding import PaddingMask
														
 
															-from fairseq2.nn.transformer import (
														
 
															-    TransformerNormOrder,
														
 
															-    create_standard_layer_norm,
														
 
															-)
														
 
															+from fairseq2.nn.transformer import TransformerNormOrder, create_standard_layer_norm
														
 
															 from fairseq2.typing import DataType, Device, finaloverride
														
 
															+from torch import Tensor
														
 
															+from torch.nn import Module
														
 
															+
														
 
															 from seamless_communication.models.unity.nar_decoder_layer import (
														
 
															     NARTransformerDecoderLayer,
														
 
															 )
														
--- a/src/seamless_communication/models/unity/nar_decoder_frontend.py
+++ b/src/seamless_communication/models/unity/nar_decoder_frontend.py
@@ -4,11 +4,10 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															+import math
														
 
															 from typing import List, Optional, Tuple, final
														
 
															-from torch import Tensor
														
 
															-from torch.nn import Dropout, Module, Parameter
														
 
															-
														
 
															+import torch
														
 
															 from fairseq2.data import VocabularyInfo
														
 
															 from fairseq2.models.nllb.tokenizer import NllbTokenizer
														
 
															 from fairseq2.nn.embedding import Embedding
														
@@ -17,17 +16,14 @@ from fairseq2.nn.padding import PaddingMask
 
															 from fairseq2.nn.position_encoder import PositionEncoder
														
 
															 from fairseq2.nn.transformer import create_standard_layer_norm
														
 
															 from fairseq2.typing import DataType, Device, finaloverride
														
 
															+from torch import Tensor
														
 
															+from torch.nn import Dropout, Module, Parameter
														
 
															-
														
 
															+from seamless_communication.models.unity.char_tokenizer import CharTokenizer
														
 
															 from seamless_communication.models.unity.length_regulator import (
														
 
															     HardUpsampling,
														
 
															     VarianceAdaptor,
														
 
															 )
														
 
															-from seamless_communication.models.unity.char_tokenizer import CharTokenizer
														
 
															-
														
 
															-import math
														
 
															-import torch
														
 
															-
														
 
															 SPACE = "▁"
														
--- a/src/seamless_communication/models/unity/nar_decoder_layer.py
+++ b/src/seamless_communication/models/unity/nar_decoder_layer.py
@@ -4,15 +4,14 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-from typing import Optional, final, Tuple
														
 
															-
														
 
															-from torch import Tensor
														
 
															-from torch.nn import Conv1d, Dropout, Module, ReLU
														
 
															+from typing import Optional, Tuple, final
														
 
															 from fairseq2.nn.normalization import LayerNorm
														
 
															-from fairseq2.nn.transformer import MultiheadAttention, create_standard_layer_norm
														
 
															 from fairseq2.nn.padding import PaddingMask, apply_padding_mask
														
 
															+from fairseq2.nn.transformer import MultiheadAttention, create_standard_layer_norm
														
 
															 from fairseq2.typing import DataType, Device, finaloverride
														
 
															+from torch import Tensor
														
 
															+from torch.nn import Conv1d, Dropout, Module, ReLU
														
 
															 @final
														
--- a/src/seamless_communication/models/unity/t2u_builder.py
+++ b/src/seamless_communication/models/unity/t2u_builder.py
@@ -6,9 +6,14 @@
 
															 from dataclasses import dataclass
														
 
															 from typing import Literal, Optional, Union
														
 
															-from fairseq2.assets import download_manager
														
 
															+from fairseq2.assets import asset_store, download_manager
														
 
															 from fairseq2.assets.card import AssetCard
														
 
															 from fairseq2.data import VocabularyInfo
														
 
															+from fairseq2.models.nllb.loader import NllbTokenizerLoader
														
 
															+from fairseq2.models.transformer import (
														
 
															+    TransformerEmbeddingFrontend,
														
 
															+    TransformerFrontend,
														
 
															+)
														
 
															 from fairseq2.models.utils.arch_registry import ArchitectureRegistry
														
 
															 from fairseq2.nn.embedding import Embedding, StandardEmbedding, init_scaled_embedding
														
 
															 from fairseq2.nn.position_encoder import SinusoidalPositionEncoder
														
@@ -30,25 +35,18 @@ from fairseq2.nn.transformer import (
 
															     create_default_sdpa,
														
 
															 )
														
 
															 from fairseq2.typing import DataType, Device
														
 
															-from fairseq2.models.transformer import (
														
 
															-    TransformerEmbeddingFrontend,
														
 
															-    TransformerFrontend,
														
 
															-)
														
 
															-from fairseq2.models.nllb.loader import NllbTokenizerLoader
														
 
															-
														
 
															-from seamless_communication.assets import asset_store
														
 
															-from seamless_communication.models.unity.nar_decoder import NARTransformerDecoder
														
 
															-from seamless_communication.models.unity.nar_decoder_layer import (
														
 
															-    NARTransformerDecoderLayer,
														
 
															-    Conv1dBlock,
														
 
															-)
														
 
															-from seamless_communication.models.unity.nar_decoder_frontend import NARDecoderFrontend
														
 
															 from seamless_communication.models.unity.char_tokenizer import load_unity_char_tokenizer
														
 
															-from seamless_communication.models.unity.model import UnitYT2UModel, UnitYNART2UModel
														
 
															 from seamless_communication.models.unity.length_regulator import (
														
 
															-    VariancePredictor,
														
 
															     VarianceAdaptor,
														
 
															+    VariancePredictor,
														
 
															+)
														
 
															+from seamless_communication.models.unity.model import UnitYNART2UModel, UnitYT2UModel
														
 
															+from seamless_communication.models.unity.nar_decoder import NARTransformerDecoder
														
 
															+from seamless_communication.models.unity.nar_decoder_frontend import NARDecoderFrontend
														
 
															+from seamless_communication.models.unity.nar_decoder_layer import (
														
 
															+    Conv1dBlock,
														
 
															+    NARTransformerDecoderLayer,
														
 
															 )
														
--- a/src/seamless_communication/models/vocoder/codehifigan.py
+++ b/src/seamless_communication/models/vocoder/codehifigan.py
@@ -9,8 +9,8 @@ import torch
 
															 import torch.nn as nn
														
 
															 from torch import Tensor
														
 
															-from seamless_communication.models.vocoder.hifigan import Generator
														
 
															 from seamless_communication.models.unity import VariancePredictor
														
 
															+from seamless_communication.models.vocoder.hifigan import Generator
														
 
															 class CodeGenerator(Generator):
														
--- a/src/seamless_communication/models/vocoder/loader.py
+++ b/src/seamless_communication/models/vocoder/loader.py
@@ -6,10 +6,10 @@
 
															 from typing import Any, Mapping, final
														
 
															+from fairseq2.assets import asset_store, download_manager
														
 
															 from fairseq2.models.utils.model_loader import ModelLoader
														
 
															 from overrides import override as finaloverride
														
 
															-from seamless_communication.assets import asset_store, download_manager
														
 
															 from seamless_communication.models.vocoder.builder import (
														
 
															     VocoderConfig,
														
 
															     create_vocoder_model,
														
--- a/src/seamless_communication/models/wav2vec2_chunk/__init__.py
+++ b/src/seamless_communication/models/wav2vec2_chunk/__init__.py
@@ -4,12 +4,12 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-from seamless_communication.models.wav2vec2_chunk.builder import (
														
 
															-    wav2vec2_chunk_archs as wav2vec2_chunk_archs,
														
 
															-)
														
 
															 from seamless_communication.models.wav2vec2_chunk.builder import (
														
 
															     Wav2Vec2ChunkEncoderBuilder as Wav2Vec2ChunkEncoderBuilder,
														
 
															 )
														
 
															 from seamless_communication.models.wav2vec2_chunk.builder import (
														
 
															     Wav2Vec2ChunkEncoderConfig as Wav2Vec2ChunkEncoderConfig,
														
 
															 )
														
 
															+from seamless_communication.models.wav2vec2_chunk.builder import (
														
 
															+    wav2vec2_chunk_archs as wav2vec2_chunk_archs,
														
 
															+)
														
--- a/src/seamless_communication/models/wav2vec2_chunk/builder.py
+++ b/src/seamless_communication/models/wav2vec2_chunk/builder.py
@@ -4,16 +4,16 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-from dataclasses import dataclass, asdict
														
 
															+from dataclasses import asdict, dataclass
														
 
															 from typing import Literal, Optional
														
 
															 from fairseq2.models.conformer import ConformerConvolution
														
 
															 from fairseq2.models.utils.arch_registry import ArchitectureRegistry
														
 
															+from fairseq2.models.w2vbert import w2vbert_archs
														
 
															 from fairseq2.models.wav2vec2.builder import (
														
 
															     Wav2Vec2EncoderBuilder,
														
 
															     Wav2Vec2EncoderConfig,
														
 
															 )
														
 
															-from fairseq2.models.w2vbert import w2vbert_archs
														
 
															 from fairseq2.nn.transformer import SDPA, ShawRelativePositionSDPA
														
 
															 from fairseq2.typing import DataType, Device
														
--- a/src/seamless_communication/models/wav2vec2_chunk/chunk_attention_mask.py
+++ b/src/seamless_communication/models/wav2vec2_chunk/chunk_attention_mask.py
@@ -7,10 +7,9 @@
 
															 from typing import Optional
														
 
															 import torch
														
 
															-from torch import Tensor
														
 
															-
														
 
															-from fairseq2.nn.utils.mask import to_float_mask
														
 
															 from fairseq2.nn.transformer import AttentionMask, CustomAttentionMask
														
 
															+from fairseq2.nn.utils.mask import to_float_mask
														
 
															+from torch import Tensor
														
 
															 class ChunkAttentionMaskFactory:
														
--- a/src/seamless_communication/models/wav2vec2_chunk/encoder.py
+++ b/src/seamless_communication/models/wav2vec2_chunk/encoder.py
@@ -6,25 +6,18 @@
 
															 from typing import Iterable, Optional, Tuple, final
														
 
															-from torch import Tensor
														
 
															-from torch.nn import Dropout
														
 
															-
														
 
															 from fairseq2.nn.module_list import ModuleList
														
 
															 from fairseq2.nn.normalization import LayerNorm
														
 
															 from fairseq2.nn.padding import PaddingMask
														
 
															-
														
 
															-from fairseq2.nn.transformer import (
														
 
															-    EncoderLayerOutputHook,
														
 
															-    TransformerEncoder,
														
 
															-    TransformerEncoderLayer,
														
 
															-)
														
 
															+from fairseq2.nn.transformer import TransformerEncoder, TransformerEncoderLayer
														
 
															+from fairseq2.typing import finaloverride
														
 
															+from torch import Tensor
														
 
															+from torch.nn import Dropout
														
 
															 from seamless_communication.models.wav2vec2_chunk.chunk_attention_mask import (
														
 
															     ChunkAttentionMaskFactory,
														
 
															 )
														
 
															-from fairseq2.typing import finaloverride
														
 
															-
														
 
															 @final
														
 
															 class ChunkTransformerEncoder(TransformerEncoder):
														
--- a/src/seamless_communication/py.typed
+++ b/src/seamless_communication/py.typed
--- a/tests/common.py
+++ b/tests/common.py
@@ -8,9 +8,8 @@ from contextlib import contextmanager
 
															 from typing import Any, Generator, List, Union
														
 
															 import torch
														
 
															-from torch import Tensor
														
 
															-
														
 
															 from fairseq2.typing import Device
														
 
															+from torch import Tensor
														
 
															 # The default device that tests should use. Note that pytest can change it based
														
 
															 # on the provided command line arguments.
														
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -8,10 +8,10 @@ from argparse import ArgumentTypeError
 
															 from typing import cast
														
 
															 import pytest
														
 
															-import tests.common
														
 
															-
														
 
															 from fairseq2.typing import Device
														
 
															+import tests.common
														
 
															+
														
 
															 def parse_device_arg(value: str) -> Device:
														
 
															     try:
														
--- a/tests/integration/inference/__init__.py
+++ b/tests/integration/inference/__init__.py
--- a/tests/integration/inference/test_translator.py
+++ b/tests/integration/inference/test_translator.py
@@ -4,11 +4,12 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-import torch
														
 
															 from typing import Final
														
 
															+import torch
														
 
															 from fairseq2.typing import Device
														
 
															-from seamless_communication.models.inference import Translator
														
 
															+
														
 
															+from seamless_communication.inference import Translator
														
 
															 from tests.common import device
														
 
															 # fmt: off
														
--- a/tests/integration/models/test_unit_extraction.py
+++ b/tests/integration/models/test_unit_extraction.py
@@ -4,22 +4,22 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															-import torch
														
 
															-from torch import tensor
														
 
															 from typing import Final
														
 
															+import torch
														
 
															 from fairseq2.typing import Device
														
 
															-from seamless_communication.models.inference import Translator
														
 
															-from seamless_communication.models.unit_extraction import UnitExtractor
														
 
															-from tests.common import assert_equal, device
														
 
															+from torch import tensor
														
 
															+from seamless_communication.inference import Translator
														
 
															+from seamless_communication.models.unit_extractor import UnitExtractor
														
 
															+from tests.common import assert_equal, device
														
 
															 # fmt: off
														
 
															 REF_ENG_UNITS: Final = [8976, 8299, 0, 0, 9692, 5395, 785, 785, 7805, 6193, 2922, 4806, 3362, 3560, 8119, 8119, 4335, 205, 5424, 5424, 5064, 7421, 6547, 9952, 3728, 8544, 3321, 1093, 1443, 7962, 3978, 8063, 5168, 5491, 9133, 9275, 5912, 8729, 5097, 5495, 1650, 5048, 2839, 6756, 5665, 4191, 5205, 5205, 9568, 9568, 5932, 1190, 9339, 5839, 5839, 6244, 5320, 3454, 5216, 721, 6994, 6513, 7754, 3469, 296, 1849, 3254, 3254, 5042, 5042, 3961, 2079, 1907, 1846, 661, 2225, 944, 9295, 4712, 1785, 6060, 8701, 7646, 1355, 2876, 8199, 5901, 8199, 3861, 5153, 6420, 2897, 1389, 334, 6334]
														
 
															 # fmt: on
														
 
															-def test_unit_extraction() -> None:
														
 
															+def test_unit_extractor() -> None:
														
 
															     model_name = "seamlessM4T_v2_large"
														
 
															     english_text = "Hello! I hope you're all doing well."