2 年之前 · 21241a6c47
--- a/.gitignore
+++ b/.gitignore
@@ -139,3 +139,8 @@ wandb/
 
															 nohup.out
														
 
															 multirun
														
 
															 outputs
														
 
															+
														
 
															+
														
 
															+# symlinks
														
 
															+seamless_communication
														
 
															+m4t_scripts
														
--- a/README.md
+++ b/README.md
@@ -22,22 +22,28 @@ Links:
 
															 # Quick Start
														
 
															 ## Installation
														
 
															+
														
 
															 ```
														
 
															-pip install fairseq2==0.1
														
 
															 pip install .
														
 
															 ```
														
 
															+A temporary extra requirement for fairseq2 is [libsndfile](https://github.com/libsndfile/libsndfile). From [Conda](https://docs.conda.io/en/latest/) environment it can be installed via:
														
 
															+```
														
 
															+conda install -y -c conda-forge libsndfile
														
 
															+```
														
 
															+At this point fairseq2 has a confirmed support only for Linux and macOS. Pre-built packages are only available for Linux (macOS is planned).
														
 
															+
														
 
															 ## Running inference
														
 
															 Here’s an example of using the CLI from the root directory to run inference.
														
 
															 S2ST task:
														
 
															 ```bash
														
 
															-python scripts/m4t/predict/predict.py <path_to_input_audio> s2st <tgt_lang> --output_path <path_to_save_audio>
														
 
															+m4t_predict <path_to_input_audio> s2st <tgt_lang> --output_path <path_to_save_audio>
														
 
															 ```
														
 
															 T2TT task:
														
 
															 ```bash
														
 
															-python scripts/m4t/predict/predict.py <input_text> t2tt <tgt_lang> --src_lang <src_lang>
														
 
															+m4t_predict <input_text> t2tt <tgt_lang> --src_lang <src_lang>
														
 
															 ```
														
 
															 Please refer to the [evaluation README](scripts/m4t/predict) for detailed instruction on how to run inference.
														
--- a/dev_requirements.txt
+++ b/dev_requirements.txt
@@ -0,0 +1,4 @@
 
															+pytest
														
 
															+black
														
 
															+flake8
														
 
															+isort
														
--- a/requirements.txt
+++ b/requirements.txt
@@ -3,3 +3,4 @@ datasets
 
															 torchaudio
														
 
															 soundfile
														
 
															 librosa
														
 
															+fairseq2==0.1.0
														
--- a/scripts/m4t/finetune/README.md
+++ b/scripts/m4t/finetune/README.md
@@ -29,12 +29,12 @@ Below is an example bash script that prepares a training and evaluation dataset
 
															 export DATASET_DIR=~/m4t_dataset
														
 
															 mkdir -p $DATASET_DIR
														
 
															-python scripts/m4t/finetune/dataset.py \
														
 
															+m4t_prepare_dataset \
														
 
															   --source_lang eng \
														
 
															   --target_lang kor \
														
 
															   --split train \
														
 
															   --save_dir $DATASET_DIR
														
 
															- python scripts/m4t/finetune/dataset.py \
														
 
															+m4t_prepare_dataset \
														
 
															   --source_lang eng \
														
 
															   --target_lang kor \
														
 
															   --split validation \
														
@@ -97,7 +97,8 @@ torchrun \
 
															    --rdzv-endpoint=localhost:0 \
														
 
															    --nnodes=1 \
														
 
															    --nproc-per-node=8  \
														
 
															-  scripts/m4t/finetune/finetune.py \
														
 
															+   --no-python \
														
 
															+  m4t_finetune \
														
 
															    --mode SPEECH_TO_TEXT \
														
 
															    --train_dataset $DATASET_DIR/train_manifest.json  \
														
 
															    --eval_dataset $DATASET_DIR/validation_manifest.json \
														
--- a/scripts/m4t/finetune/dataset.py
+++ b/scripts/m4t/finetune/dataset.py
@@ -10,7 +10,6 @@ import dataclasses
 
															 import json
														
 
															 import logging
														
 
															 import os
														
 
															-from argparse import Namespace
														
 
															 from pathlib import Path
														
 
															 from seamless_communication.datasets.huggingface import (
														
@@ -157,7 +156,8 @@ def init_parser() -> argparse.ArgumentParser:
 
															     return parser
														
 
															-def main(args: Namespace) -> None:
														
 
															+def main() -> None:
														
 
															+    args = init_parser().parse_args()
														
 
															     manifest_path = download_fleurs_dataset(
														
 
															         source_lang=args.source_lang,
														
 
															         target_lang=args.target_lang,
														
@@ -168,5 +168,4 @@ def main(args: Namespace) -> None:
 
															 if __name__ == "__main__":
														
 
															-    args = init_parser().parse_args()
														
 
															-    main(args)
														
 
															+    main()
														
--- a/scripts/m4t/finetune/finetune.py
+++ b/scripts/m4t/finetune/finetune.py
@@ -7,14 +7,11 @@
 
															 import argparse
														
 
															 import logging
														
 
															 import os
														
 
															-from argparse import Namespace
														
 
															 from pathlib import Path
														
 
															-import dataloader
														
 
															-import dist_utils
														
 
															 import torch
														
 
															-import trainer
														
 
															 from fairseq2.models.nllb.tokenizer import NllbTokenizer
														
 
															+from m4t_scripts.finetune import dataloader, dist_utils, trainer
														
 
															 from seamless_communication.models.unity import (
														
 
															     UnitTokenizer,
														
@@ -115,7 +112,7 @@ def init_parser() -> argparse.ArgumentParser:
 
															         "--mode",
														
 
															         type=trainer.FinetuneMode,
														
 
															         choices=list(trainer.FinetuneMode),
														
 
															-        default=trainer.FinetuneMode.TEXT_TO_SPEECH,
														
 
															+        default=trainer.FinetuneMode.SPEECH_TO_TEXT,
														
 
															         help=(
														
 
															             "* `SPEECH_TO_SPEECH` -- finetune S2T and T2U parts of the model; "
														
 
															             "* `TEXT_TO_SPEECH` -- finetune only T2U; "
														
@@ -125,7 +122,8 @@ def init_parser() -> argparse.ArgumentParser:
 
															     return parser
														
 
															-def run_finetune(args: Namespace) -> None:
														
 
															+def main() -> None:
														
 
															+    args = init_parser().parse_args()
														
 
															     dist_utils.init_distributed([logger, trainer.logger])
														
 
															     device = torch.device("cuda")
														
 
															     text_tokenizer: NllbTokenizer = load_unity_text_tokenizer(args.model_name)
														
@@ -182,5 +180,4 @@ def run_finetune(args: Namespace) -> None:
 
															 if __name__ == "__main__":
														
 
															-    parser = init_parser()
														
 
															-    run_finetune(parser.parse_args())
														
 
															+    main()
														
--- a/scripts/m4t/finetune/trainer.py
+++ b/scripts/m4t/finetune/trainer.py
@@ -12,17 +12,17 @@ from enum import Enum
 
															 from pathlib import Path
														
 
															 from typing import Optional, Tuple
														
 
															-import dataloader
														
 
															-import dist_utils
														
 
															 import torch
														
 
															 import torch.distributed as dist
														
 
															 import torch.nn as nn
														
 
															 from fairseq2.models.sequence import SequenceModelOutput
														
 
															-from fairseq2.models.unity import UnitYModel
														
 
															 from fairseq2.optim.lr_scheduler import MyleLR
														
 
															 from fairseq2.typing import Device
														
 
															+from m4t_scripts.finetune import dataloader, dist_utils
														
 
															 from torch.optim import Adam
														
 
															+from seamless_communication.models.unity import UnitYModel
														
 
															+
														
 
															 logger = logging.getLogger(__name__)
														
--- a/scripts/m4t/predict/README.md
+++ b/scripts/m4t/predict/README.md
@@ -16,27 +16,27 @@ The model can be specified with `--model_name` `seamlessM4T_large` or `seamlessM
 
															 **S2ST**:
														
 
															 ```bash
														
 
															-python scripts/m4t/predict/predict.py <path_to_input_audio> s2st <tgt_lang> --output_path <path_to_save_audio> --model_name seamlessM4T_large
														
 
															+m4t_predict <path_to_input_audio> s2st <tgt_lang> --output_path <path_to_save_audio> --model_name seamlessM4T_large
														
 
															 ```
														
 
															 **S2TT**:
														
 
															 ```bash
														
 
															-python scripts/m4t/predict/predict.py <path_to_input_audio> s2tt <tgt_lang>
														
 
															+m4t_predict <path_to_input_audio> s2tt <tgt_lang>
														
 
															 ```
														
 
															 **T2TT**:
														
 
															 ```bash
														
 
															-python scripts/m4t/predict/predict.py <input_text> t2tt <tgt_lang> --src_lang <src_lang>
														
 
															+m4t_predict <input_text> t2tt <tgt_lang> --src_lang <src_lang>
														
 
															 ```
														
 
															 **T2ST**:
														
 
															 ```bash
														
 
															-python scripts/m4t/predict/predict.py <input_text> t2st <tgt_lang> --src_lang <src_lang> --output_path <path_to_save_audio>
														
 
															+m4t_predict <input_text> t2st <tgt_lang> --src_lang <src_lang> --output_path <path_to_save_audio>
														
 
															 ```
														
 
															 **ASR**:
														
 
															 ```bash
														
 
															-python scripts/m4t/predict/predict.py <path_to_input_audio> asr <tgt_lang>
														
 
															+m4t_predict <path_to_input_audio> asr <tgt_lang>
														
 
															 ```
														
 
															 Note that it takes 16kHz audio now. Here's how you could resample your audio:
														
--- a/scripts/m4t/predict/__init__.py
+++ b/scripts/m4t/predict/__init__.py
--- a/scripts/m4t/predict/predict.py
+++ b/scripts/m4t/predict/predict.py
@@ -9,8 +9,11 @@ import torch
 
															 import torchaudio
														
 
															 from seamless_communication.models.inference import Translator
														
 
															+logging.basicConfig(
														
 
															+    level=logging.INFO,
														
 
															+    format="%(asctime)s %(levelname)s -- %(name)s: %(message)s",
														
 
															+)
														
 
															-logging.basicConfig(level=logging.INFO)
														
 
															 logger = logging.getLogger(__name__)
														
--- a/setup.py
+++ b/setup.py
@@ -4,12 +4,70 @@
 
															 # This source code is licensed under the license found in the
														
 
															 # LICENSE file in the root directory of this source tree.
														
 
															+from pathlib import Path
														
 
															+import os
														
 
															+from typing import Iterable
														
 
															+
														
 
															+import pkg_resources
														
 
															 from setuptools import find_packages, setup
														
 
															+from setuptools.command.develop import develop
														
 
															+
														
 
															+
														
 
															+def _load_requirements(fname: str) -> Iterable[str]:
														
 
															+    with open(Path(__file__).parent / fname) as fp_in:
														
 
															+        for req in pkg_resources.parse_requirements(fp_in):
														
 
															+            yield str(req)
														
 
															+
														
 
															+
														
 
															+def _add_symlinks():
														
 
															+    root = Path(__file__).parent
														
 
															+    sc_root = root / "src/seamless_communication"
														
 
															+    sc_link = root / "seamless_communication"
														
 
															+    m4t_scripts_root = root / "scripts/m4t"
														
 
															+    m4t_scripts_link = root / "m4t_scripts"
														
 
															+    if not sc_link.exists():
														
 
															+        os.symlink(sc_root, sc_link, target_is_directory=True)
														
 
															+    if not m4t_scripts_link.exists():
														
 
															+        os.symlink(m4t_scripts_root, m4t_scripts_link, target_is_directory=True)
														
 
															+
														
 
															+
														
 
															+class cmd_for_editable_mode(develop):
														
 
															+    def run(self):
														
 
															+        # add symlinks for modules if install in editable mode
														
 
															+        _add_symlinks()
														
 
															+        super().run()
														
 
															+
														
 
															+
														
 
															+default_requirements = list(_load_requirements("requirements.txt"))
														
 
															+dev_requirements = list(_load_requirements("dev_requirements.txt"))
														
 
															 setup(
														
 
															     name="seamless_communication",
														
 
															-    version="0.1",
														
 
															-    packages=find_packages(where="src"),
														
 
															-    package_dir={"": "src"},
														
 
															-    package_data={"": ["assets/cards/*.yaml"]},
														
 
															+    version="1.0.0",
														
 
															+    packages=find_packages(where="src")
														
 
															+    + ["m4t_scripts.finetune", "m4t_scripts.predict"],
														
 
															+    package_dir={
														
 
															+        "m4t_scripts": "scripts/m4t",
														
 
															+        "seamless_communication": "src/seamless_communication",
														
 
															+    },
														
 
															+    package_data={"": ["seamless_communication/assets/cards/*.yaml"]},
														
 
															+    description="SeamlessM4T -- Massively Multilingual & Multimodal Machine Translation Model",
														
 
															+    long_description=open("README.md", encoding="utf-8").read(),
														
 
															+    long_description_content_type="text/markdown",
														
 
															+    readme="README.md",
														
 
															+    python_requires=">=3.8",
														
 
															+    author="Fundamental AI Research (FAIR) at Meta",
														
 
															+    url="https://github.com/facebookresearch/seamless_communication",
														
 
															+    license="Creative Commons",
														
 
															+    install_requires=default_requirements,
														
 
															+    extras_require={"dev": default_requirements + dev_requirements},
														
 
															+    entry_points={
														
 
															+        "console_scripts": [
														
 
															+            "m4t_predict=m4t_scripts.predict.predict:main",
														
 
															+            "m4t_finetune=m4t_scripts.finetune.finetune:main",
														
 
															+            "m4t_prepare_dataset=m4t_scripts.finetune.dataset:main",
														
 
															+        ],
														
 
															+    },
														
 
															+    cmdclass={"develop": cmd_for_editable_mode},
														
 
															+    include_package_data=True,
														
 
															 )
+															+pytest
+															+black
+															+flake8
+															+isort