1 year ago · 09a7d5be2e
--- a/src/seamless_communication/cli/m4t/finetune/dataset.py
+++ b/src/seamless_communication/cli/m4t/finetune/dataset.py
@@ -16,6 +16,7 @@ import torch
 
															 from seamless_communication.datasets.huggingface import (
														
 
															     Speech2SpeechFleursDatasetBuilder,
														
 
															+    Speech2SpeechGigaSpeechDatasetBuilder,
														
 
															     SpeechTokenizer,
														
 
															 )
														
 
															 from seamless_communication.models.unit_extractor import UnitExtractor
														
@@ -123,6 +124,7 @@ def download_fleurs_dataset(
 
															     target_lang: str,
														
 
															     split: str,
														
 
															     save_directory: str,
														
 
															+    max_samples: int = 100_000,
														
 
															 ) -> str:
														
 
															     _check_lang_code_mapping(source_lang)
														
 
															     _check_lang_code_mapping(target_lang)
														
@@ -130,18 +132,23 @@ def download_fleurs_dataset(
 
															         torch.device("cuda:0") if torch.cuda.device_count() > 0 else torch.device("cpu")
														
 
															     )
														
 
															     tokenizer = UnitSpeechTokenizer(device=device)
														
 
															-    dataset_iterator = Speech2SpeechFleursDatasetBuilder(
														
 
															-        source_lang=UNITY_TO_FLEURS_LANG_MAPPING[source_lang],
														
 
															-        target_lang=UNITY_TO_FLEURS_LANG_MAPPING[target_lang],
														
 
															-        dataset_cache_dir=save_directory,
														
 
															-        speech_tokenizer=tokenizer,
														
 
															-        skip_source_audio=True,  # don't extract units from source audio
														
 
															-        skip_target_audio=False,
														
 
															-        split=split,
														
 
															-    )
														
 
															+    if 1:
														
 
															+        dataset_iterator = Speech2SpeechGigaSpeechDatasetBuilder(split=split, dataset_cache_dir=save_directory)
														
 
															+    else:
														
 
															+        dataset_iterator = Speech2SpeechFleursDatasetBuilder(
														
 
															+            source_lang=UNITY_TO_FLEURS_LANG_MAPPING[source_lang],
														
 
															+            target_lang=UNITY_TO_FLEURS_LANG_MAPPING[target_lang],
														
 
															+            dataset_cache_dir=save_directory,
														
 
															+            speech_tokenizer=tokenizer,
														
 
															+            skip_source_audio=True,  # don't extract units from source audio
														
 
															+            skip_target_audio=False,
														
 
															+            split=split,
														
 
															+        )
														
 
															     manifest_path: str = os.path.join(save_directory, f"{split}_manifest.json")
														
 
															     with open(manifest_path, "w") as fp_out:
														
 
															         for idx, sample in enumerate(dataset_iterator.__iter__(), start=1):
														
 
															+            if idx >= max_samples:
														
 
															+                break
														
 
															             # correction as FleursDatasetBuilder return fleurs lang codes
														
 
															             sample.source.lang = source_lang
														
 
															             sample.target.lang = target_lang
														
@@ -183,6 +190,12 @@ def init_parser() -> argparse.ArgumentParser:
 
															         required=True,
														
 
															         help="Directory where the datastets will be stored with HuggingFace datasets cache files",
														
 
															     )
														
 
															+    parser.add_argument(
														
 
															+        "--max_samples",
														
 
															+        type=int,
														
 
															+        default=100_000,
														
 
															+        help="Max samples to use",
														
 
															+    )
														
 
															     return parser
														
@@ -193,6 +206,7 @@ def main() -> None:
 
															         target_lang=args.target_lang,
														
 
															         split=args.split,
														
 
															         save_directory=args.save_dir,
														
 
															+        max_samples=args.max_samples,
														
 
															     )
														
 
															     logger.info(f"Manifest saved to: {manifest_path}")
														
--- a/src/seamless_communication/cli/m4t/finetune/finetune.py
+++ b/src/seamless_communication/cli/m4t/finetune/finetune.py
@@ -133,11 +133,13 @@ def main() -> None:
 
															     dist_utils.init_distributed([logger, trainer.logger])
														
 
															     text_tokenizer: NllbTokenizer = load_unity_text_tokenizer(args.model_name)
														
 
															     unit_tokenizer: UnitTokenizer = load_unity_unit_tokenizer(args.model_name)
														
 
															+    float_dtype = torch.float16 if torch.device(args.device).type != "cpu" else torch.bfloat16
														
 
															+    logger.info(f"Training precision: {float_dtype}")
														
 
															     finetune_params = trainer.FinetuneParams(
														
 
															         finetune_mode=args.mode,
														
 
															         save_model_path=args.save_model_to,
														
 
															         device=torch.device(args.device),
														
 
															-        float_dtype=torch.float16 if torch.device(args.device).type != "cpu" else torch.bfloat16,
														
 
															+        float_dtype=float_dtype,
														
 
															         train_batch_size=args.batch_size,
														
 
															         eval_batch_size=args.batch_size,
														
 
															         patience=args.patience,
														
--- a/src/seamless_communication/cli/m4t/finetune/mini_eval.py
+++ b/src/seamless_communication/cli/m4t/finetune/mini_eval.py
@@ -0,0 +1,86 @@
 
															+import torch
														
 
															+from datasets import load_dataset
														
 
															+from jiwer import wer
														
 
															+import os
														
 
															+from typing import Tuple, Iterable, Dict, Any
														
 
															+import logging
														
 
															+
														
 
															+logging.basicConfig(level=logging.INFO)
														
 
															+
														
 
															+from seamless_communication.models.unity import UnitYModel
														
 
															+from seamless_communication.inference import Translator
														
 
															+
														
 
															+log = logging.getLogger("l")
														
 
															+
														
 
															+TOKEN = "<YOU HF TOKEN HERE>"
														
 
															+MAX_SAMPLES = 100
														
 
															+CHCK_PATH = os.path.expanduser("~/tune_chck/chck.pt")
														
 
															+
														
 
															+
														
 
															+def _iterate_test_ds() -> Iterable[Tuple[torch.Tensor, str]]:
														
 
															+    ds = load_dataset(
														
 
															+        "speechcolab/gigaspeech",
														
 
															+        "xs",
														
 
															+        token=os.environ.get("HF_TOKEN", TOKEN),
														
 
															+        split="test",
														
 
															+        streaming=True,
														
 
															+        trust_remote_code=True,
														
 
															+    )
														
 
															+    for idx, item in enumerate(ds):
														
 
															+        if idx >= MAX_SAMPLES:
														
 
															+            break
														
 
															+        assert item["audio"]["sampling_rate"] == 16000
														
 
															+        yield (torch.from_numpy(item["audio"]["array"]), item["text"])
														
 
															+
														
 
															+
														
 
															+def _eval(translator: Translator) -> float:
														
 
															+    references = []
														
 
															+    predictions = []
														
 
															+    for idx, (wav, text) in enumerate(_iterate_test_ds()):
														
 
															+        references.append(text)
														
 
															+        prediction = str(
														
 
															+            translator.predict(
														
 
															+                input=wav,
														
 
															+                task_str="s2tt",
														
 
															+                tgt_lang="eng",
														
 
															+                src_lang="eng",
														
 
															+            )[0][0]
														
 
															+        )
														
 
															+        log.info(idx)
														
 
															+        log.info(f"REF: {text}")
														
 
															+        log.info(f"PRE: {prediction}")
														
 
															+        log.info("----")
														
 
															+        predictions.append(prediction)
														
 
															+    return wer(reference=references, hypothesis=predictions)
														
 
															+
														
 
															+
														
 
															+def _select_keys(state_dict: Dict[str, Any], prefix: str) -> Dict[str, Any]:
														
 
															+    return {key.replace(prefix, ""): value for key, value in state_dict.items() if key.startswith(prefix)}
														
 
															+
														
 
															+
														
 
															+def load_checkpoint(model: UnitYModel, chck_path: str) -> None:
														
 
															+    state_dict = torch.load(chck_path, map_location="cpu")
														
 
															+    model.speech_encoder_frontend.load_state_dict(_select_keys(state_dict, "model.speech_encoder_frontend."))
														
 
															+    model.speech_encoder.load_state_dict(_select_keys(state_dict, "model.speech_encoder."))
														
 
															+    assert model.text_decoder_frontend is not None
														
 
															+    model.text_decoder_frontend.load_state_dict(_select_keys(state_dict, "model.text_decoder_frontend."))
														
 
															+    assert model.text_decoder is not None
														
 
															+    model.text_decoder.load_state_dict(_select_keys(state_dict, "model.text_decoder."))
														
 
															+
														
 
															+
														
 
															+def main() -> None:
														
 
															+    translator = Translator(
														
 
															+        model_name_or_card="seamlessM4T_medium",
														
 
															+        vocoder_name_or_card=None,
														
 
															+        device=torch.device("cuda"),
														
 
															+    )
														
 
															+    non_tuned_wer = _eval(translator)
														
 
															+
														
 
															+    load_checkpoint(translator.model, CHCK_PATH)
														
 
															+    tuned_wer = _eval(translator)
														
 
															+
														
 
															+    log.info(f"WER non-tuned: {non_tuned_wer:.3f}")
														
 
															+    log.info(f"WER tuned: {tuned_wer:.3f}")
														
 
															+
														
 
															+if __name__ == "__main__":
														
 
															+    main()
														
--- a/src/seamless_communication/cli/m4t/finetune/trainer.py
+++ b/src/seamless_communication/cli/m4t/finetune/trainer.py
@@ -11,7 +11,7 @@ from dataclasses import dataclass
 
															 from enum import Enum
														
 
															 from tqdm import tqdm
														
 
															 from pathlib import Path
														
 
															-from typing import Optional, Tuple
														
 
															+from typing import List, Optional, Tuple
														
 
															 import torch
														
 
															 import torch.distributed as dist
														
@@ -21,7 +21,7 @@ from fairseq2.models.sequence import SequenceModelOutput
 
															 from fairseq2.nn.padding import PaddingMask
														
 
															 from fairseq2.optim.lr_scheduler import MyleLR
														
 
															 from fairseq2.typing import Device
														
 
															-from torch.optim import AdamW
														
 
															+from torch.optim import AdamW, Adam
														
 
															 from seamless_communication.cli.m4t.finetune import dataloader, dist_utils
														
 
															 from seamless_communication.models.unity import (
														
@@ -88,11 +88,17 @@ class UnitYFinetuneWrapper(nn.Module):
 
															     def __init__(self, model: UnitYModel, mode: FinetuneMode, device: Device):
														
 
															         super().__init__()
														
 
															         self.model: UnitYModel = model
														
 
															+        #self._freeze_module(self.model.speech_encoder_frontend)
														
 
															+        #self._freeze_module(self.model.speech_encoder)
														
 
															         self.freeze_s2t: bool = mode == FinetuneMode.TEXT_TO_SPEECH
														
 
															         self.freeze_t2u: bool = mode == FinetuneMode.SPEECH_TO_TEXT
														
 
															         logger.info(f"Freeze s2t: {self.freeze_s2t}, freeze t2u: {self.freeze_t2u}")
														
 
															         self.device = device
														
 
															+    def _freeze_module(self, module: torch.nn.Module) -> None:
														
 
															+        for param in module.parameters():
														
 
															+            param.requires_grad = False
														
 
															+
														
 
															     def forward(
														
 
															         self, batch: dataloader.MultimodalSeqsBatch
														
 
															     ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
														
@@ -329,12 +335,11 @@ class UnitYFinetune:
 
															                 assert batch.speech_to_text.src_tokens is not None
														
 
															                 with torch.autocast(device_type=self.params.device.type, dtype=self.params.float_dtype):
														
 
															                     loss = self.calc_loss(batch, *self.model(batch))
														
 
															-                if loss.isnan():
														
 
															-                    logger.warning("Eval loss value is NaN, setting to inf")
														
 
															-                    loss_val = float("Inf")
														
 
															-                else:
														
 
															-                    loss_val = loss.item()
														
 
															                 del batch  # force memory release
														
 
															+                if loss.isnan():
														
 
															+                    logger.warning(".. batch loss value is NaN, skipping")
														
 
															+                    continue
														
 
															+                loss_val = loss.item()
														
 
															                 loss_hist.update(1, loss_val)
														
 
															         eval_loss = loss_hist.reduce()
														
 
															         self._update_eval_stats(eval_loss)
														
@@ -351,13 +356,18 @@ class UnitYFinetune:
 
															                 f"last lr={self.lr_scheduler.get_last_lr()[0]:.2E}"
														
 
															             )
														
 
															-    def _train_step(self, batch: dataloader.MultimodalSeqsBatch) -> None:
														
 
															+    def _train_step(self, batches: List[dataloader.MultimodalSeqsBatch]) -> None:
														
 
															         """Run one train step"""
														
 
															         self.model.train()
														
 
															         self.optimizer.zero_grad()
														
 
															-        with torch.autocast(device_type=self.params.device.type, dtype=self.params.float_dtype):
														
 
															-            tokens, units = self.model(batch)
														
 
															-        loss = self.calc_loss(batch, tokens, units)
														
 
															+        # logger.info(f"forward start {torch.cuda.memory_allocated(0) >> 30}g")
														
 
															+        losses = []
														
 
															+        for batch in batches:
														
 
															+            with torch.autocast(device_type=self.params.device.type, dtype=self.params.float_dtype):
														
 
															+                tokens, units = self.model(batch)
														
 
															+            # logger.info(f"forward done {torch.cuda.memory_allocated(0) >> 30}g")
														
 
															+            losses.append(self.calc_loss(batch, tokens, units))
														
 
															+        loss = sum(losses) / len(losses)
														
 
															         if loss.isnan().any().item():
														
 
															             logger.error(batch.speech_to_text)
														
 
															             raise RuntimeError("Loss is Nan. Terminating.")
														
@@ -365,6 +375,7 @@ class UnitYFinetune:
 
															         self.grad_scaler.step(self.optimizer)
														
 
															         self.grad_scaler.update()
														
 
															         self.lr_scheduler.step()
														
 
															+        # logger.info(f"backward done {torch.cuda.memory_allocated(0) >> 30}g")
														
 
															         assert batch.speech_to_text.src_tokens is not None
														
 
															         self.train_loss_hist.update(1, loss.item())
														
 
															         self._train_step_log()
														
@@ -385,19 +396,24 @@ class UnitYFinetune:
 
															         self._reset_stats()
														
 
															         self._eval_model()
														
 
															         batch_itr = self.train_data_loader.get_dataloader()
														
 
															+        batches_per_iter = 1
														
 
															         while self.epoch_idx < self.params.max_epochs and self.patience_left:
														
 
															+            train_batches = []
														
 
															             for train_batch in batch_itr:
														
 
															-                self._train_step(batch=train_batch)
														
 
															-                if self.update_idx and self.update_idx % self.params.eval_steps == 0:
														
 
															-                    self._eval_model()
														
 
															-                    if self.is_best_state:
														
 
															-                        self._save_model()
														
 
															-                    elif not self.patience_left:
														
 
															-                        no_improve_steps = self.params.eval_steps * self.params.patience
														
 
															-                        logger.info(
														
 
															-                            "Early termination, as eval loss did not improve "
														
 
															-                            f"over last {no_improve_steps} updates"
														
 
															-                        )
														
 
															-                        break
														
 
															-                self.update_idx += 1
														
 
															+                train_batches.append(train_batch)
														
 
															+                if len(train_batches) > batches_per_iter:
														
 
															+                    self._train_step(batches=train_batches)
														
 
															+                    train_batches = []
														
 
															+                    if self.update_idx and self.update_idx % self.params.eval_steps == 0:
														
 
															+                        self._eval_model()
														
 
															+                        if self.is_best_state:
														
 
															+                            self._save_model()
														
 
															+                        elif not self.patience_left:
														
 
															+                            no_improve_steps = self.params.eval_steps * self.params.patience
														
 
															+                            logger.info(
														
 
															+                                "Early termination, as eval loss did not improve "
														
 
															+                                f"over last {no_improve_steps} updates"
														
 
															+                            )
														
 
															+                            break
														
 
															+                    self.update_idx += 1
														
 
															             self.epoch_idx += 1