1 жил өмнө · ba7f6d0725
--- a/src/seamless_communication/cli/m4t/evaluate/evaluate.py
+++ b/src/seamless_communication/cli/m4t/evaluate/evaluate.py
@@ -32,13 +32,13 @@ from seamless_communication.cli.m4t.predict import (
 
															     add_inference_arguments,
														
 
															     set_generation_opts,
														
 
															 )
														
 
															+from seamless_communication.models.unity import UnitYModel
														
 
															 from seamless_communication.inference import (
														
 
															     BatchedSpeechOutput,
														
 
															     Modality,
														
 
															     SequenceGeneratorOptions,
														
 
															     Translator,
														
 
															 )
														
 
															-from seamless_communication.models.unity import load_unity_text_tokenizer
														
 
															 logging.basicConfig(
														
 
															     level=logging.INFO,
														
@@ -247,14 +247,14 @@ def adjust_output_for_corrupted_inputs(
 
															 def run_eval(
														
 
															     translator: Translator,
														
 
															-    text_tokenizer: TextTokenizer,
														
 
															     ctx: EvalContext,
														
 
															     whisper_model_name: str,
														
 
															+    n_samples = None
														
 
															 ) -> None:
														
 
															-    pipeline = build_data_pipeline(ctx, text_tokenizer)
														
 
															+    pipeline = build_data_pipeline(ctx, translator.text_tokenizer)
														
 
															     total_steps = count_lines(ctx.data_file) - 1
														
 
															-    progress_bar = tqdm(total=total_steps)
														
 
															+    progress_bar = tqdm(total=n_samples or total_steps)
														
 
															     output_path = ctx.output_path / ctx.data_file.stem
														
 
															     output_path.mkdir(parents=True, exist_ok=True)
														
@@ -294,15 +294,21 @@ def run_eval(
 
															             # Skip performing inference when the input is entirely corrupted.
														
 
															             if src["seqs"].numel() > 0:
														
 
															-                (text_output, speech_output,) = translator.predict(
														
 
															-                    src,
														
 
															-                    ctx.task,
														
 
															-                    ctx.target_lang,
														
 
															-                    src_lang=ctx.source_lang,
														
 
															-                    text_generation_opts=ctx.text_generation_opts,
														
 
															-                    unit_generation_opts=ctx.unit_generation_opts,
														
 
															-                    unit_generation_ngram_filtering=ctx.unit_generation_ngram_filtering,
														
 
															-                )
														
 
															+                # HACK:: Fix this bad handling
														
 
															+                # RuntimeError: The sequence generator returned no hypothesis at index 2. Please file a bug report.
														
 
															+                try:
														
 
															+                    (text_output, speech_output,) = translator.predict(
														
 
															+                        src,
														
 
															+                        ctx.task,
														
 
															+                        ctx.target_lang,
														
 
															+                        src_lang=ctx.source_lang,
														
 
															+                        text_generation_opts=ctx.text_generation_opts,
														
 
															+                        unit_generation_opts=ctx.unit_generation_opts,
														
 
															+                        unit_generation_ngram_filtering=ctx.unit_generation_ngram_filtering,
														
 
															+                    )
														
 
															+                except RuntimeError as e:
														
 
															+                    logger.exception(f"Caught RuntimeError: {e}")
														
 
															+                    continue
														
 
															             else:
														
 
															                 text_output = []
														
 
															                 if ctx.output_modality == Modality.SPEECH:
														
@@ -338,6 +344,10 @@ def run_eval(
 
															                 sample_id += 1
														
 
															                 progress_bar.update(1)
														
 
															+                if n_samples and progress_bar.n == n_samples:
														
 
															+                    break
														
 
															+            if n_samples and progress_bar.n == n_samples:
														
 
															+                break
														
 
															     progress_bar.close()
														
 
															     logger.info(f"Processed {sample_id} samples")
														
@@ -352,6 +362,26 @@ def run_eval(
 
															     )
														
 
															+def load_checkpoint(model: UnitYModel, path: str, device = torch.device("cpu")) -> None:
														
 
															+    saved_model = torch.load(path, map_location=device)["model"]
														
 
															+    saved_model = { k.replace("model.", ""): v for k, v in saved_model.items() }
														
 
															+
														
 
															+    def _select_keys(state_dict: Dict[str, Any], prefix: str) -> Dict[str, Any]:
														
 
															+        return {key.replace(prefix, ""): value for key, value in state_dict.items() if key.startswith(prefix)}
														
 
															+
														
 
															+    model.speech_encoder_frontend.load_state_dict(_select_keys(saved_model, "model.speech_encoder_frontend."))
														
 
															+    model.speech_encoder.load_state_dict(_select_keys(saved_model, "model.speech_encoder."))
														
 
															+
														
 
															+    assert model.text_decoder_frontend is not None
														
 
															+    model.text_decoder_frontend.load_state_dict(_select_keys(saved_model, "model.text_decoder_frontend."))
														
 
															+
														
 
															+    assert model.text_decoder is not None
														
 
															+    model.text_decoder.load_state_dict(_select_keys(saved_model, "model.text_decoder."))
														
 
															+
														
 
															+    assert model.final_proj is not None
														
 
															+    model.final_proj.load_state_dict(_select_keys(saved_model, "model.final_proj."))
														
 
															+
														
 
															+
														
 
															 def main(optional_args: Optional[Dict[str, Any]] = None) -> None:
														
 
															     parser = argparse.ArgumentParser(
														
 
															         description="M4T evaluation for tasks supported by Translator."
														
@@ -362,8 +392,20 @@ def main(optional_args: Optional[Dict[str, Any]] = None) -> None:
 
															         help="Data file to be evaluated, either TSV file or manifest JSON file."
														
 
															         "Format of the manifest JSON file should be that as produced by `m4t_prepare_dataset`"
														
 
															     )
														
 
															+    parser.add_argument(
														
 
															+        "--load_checkpoint", 
														
 
															+        type=str,
														
 
															+        help="Load a local Checkpoint",
														
 
															+        default=None
														
 
															+    )
														
 
															     parser = add_inference_arguments(parser)
														
 
															+    parser.add_argument(
														
 
															+        "--device",
														
 
															+        type=str,
														
 
															+        help="Device",
														
 
															+        default="cuda" if torch.cuda.is_available() else "cpu",
														
 
															+    )
														
 
															     parser.add_argument(
														
 
															         "--batch_size",
														
 
															         type=int,
														
@@ -388,7 +430,13 @@ def main(optional_args: Optional[Dict[str, Any]] = None) -> None:
 
															         help="Whisper model to be used for ASR-BLEU scoring",
														
 
															         default="large",
														
 
															     )
														
 
															-    args, unknown = parser.parse_known_args()
														
 
															+    parser.add_argument(
														
 
															+        "--n_samples",
														
 
															+        type=int,
														
 
															+        help="Number of Samples to run eval on. All if None.",
														
 
															+        default=None,
														
 
															+    )
														
 
															+    args, _ = parser.parse_known_args()
														
 
															     default_args = vars(args)
														
 
															     default_args.update(optional_args) if optional_args else default_args
														
 
															     args = Namespace(**default_args)
														
@@ -412,15 +460,9 @@ def main(optional_args: Optional[Dict[str, Any]] = None) -> None:
 
															         raise ValueError(
														
 
															             f"Invalid audio_root_dir: {args.audio_root_dir} for speech input."
														
 
															         )
														
 
															-
														
 
															-    if torch.cuda.is_available():
														
 
															-        device = torch.device("cuda:0")
														
 
															-        dtype = torch.float16
														
 
															-    else:
														
 
															-        device = torch.device("cpu")
														
 
															-        dtype = torch.float32
														
 
															-
														
 
															-    text_tokenizer = load_unity_text_tokenizer(args.model_name)
														
 
															+    
														
 
															+    device = torch.device(args.device)
														
 
															+    dtype = torch.float16 if device.type == "cuda" else torch.float32
														
 
															     # TODO: Avoid loading the T2U model, vocoder when the output
														
 
															     # modality is text.
														
@@ -428,11 +470,13 @@ def main(optional_args: Optional[Dict[str, Any]] = None) -> None:
 
															         args.model_name,
														
 
															         args.vocoder_name,
														
 
															         device,
														
 
															-        text_tokenizer=text_tokenizer,
														
 
															         dtype=dtype,
														
 
															         input_modality=input_modality,
														
 
															         output_modality=output_modality,
														
 
															     )
														
 
															+    
														
 
															+    if args.load_checkpoint:
														
 
															+        load_checkpoint(translator.model, path=args.load_checkpoint, device=device)
														
 
															     text_generation_opts, unit_generation_opts = set_generation_opts(args)
														
@@ -465,7 +509,7 @@ def main(optional_args: Optional[Dict[str, Any]] = None) -> None:
 
															     # fmt: on
														
 
															     logger.info(f"Running inference on {device=} with {dtype=}, {ctx.batch_size=}.")
														
 
															-    run_eval(translator, text_tokenizer, ctx, args.whisper_model_name)
														
 
															+    run_eval(translator, ctx, args.whisper_model_name, n_samples=args.n_samples)
														
 
															 if __name__ == "__main__":
														
--- a/src/seamless_communication/cli/m4t/finetune/dataloader.py
+++ b/src/seamless_communication/cli/m4t/finetune/dataloader.py
@@ -8,7 +8,7 @@
 
															 import json
														
 
															 import logging
														
 
															 from dataclasses import dataclass
														
 
															-from typing import Any, Dict, Iterable, List, Optional
														
 
															+from typing import Any, Dict, Iterable, List, Optional, Tuple
														
 
															 import numpy as np
														
 
															 import torch
														
@@ -100,6 +100,7 @@ class UnitYDataLoader:
 
															         unit_tokenizer: UnitTokenizer,
														
 
															         dataset_manifest_path: str,
														
 
															         batching_config: BatchingConfig,
														
 
															+        max_src_tokens_per_batch: int = 100000
														
 
															     ):
														
 
															         self.text_tokenizer = text_tokenizer
														
 
															         self.text_encoders_per_lang: Dict[str, TextTokenEncoder] = {}
														
@@ -115,6 +116,7 @@ class UnitYDataLoader:
 
															             "dtype": self.batching_config.float_dtype,
														
 
															         }
														
 
															         self.dataset = self._load_manifest(dataset_manifest_path)
														
 
															+        self.max_src_tokens_per_batch = max_src_tokens_per_batch
														
 
															     def get_dataloader(self) -> DataLoader[SeqsBatch]:
														
 
															         subset = split_dataset_by_node(
														
@@ -156,9 +158,9 @@ class UnitYDataLoader:
 
															         """Expected sequence is [<eos>, <lang_tok> , ..text tokens.., <eos>]"""
														
 
															         target_lang = sample.target.lang
														
 
															         if target_lang not in self.text_encoders_per_lang:
														
 
															-            self.text_encoders_per_lang[
														
 
															-                target_lang
														
 
															-            ] = self.text_tokenizer.create_encoder(lang=target_lang, mode="target")
														
 
															+            self.text_encoders_per_lang[target_lang] = (
														
 
															+                self.text_tokenizer.create_encoder(lang=target_lang, mode="target")
														
 
															+            )
														
 
															         tokens = self.text_encoders_per_lang[target_lang](sample.target.text)
														
 
															         eos_idx = self.text_tokenizer.vocab_info.eos_idx
														
 
															         tokens = torch.concat([tokens, torch.LongTensor([eos_idx])])
														
@@ -170,9 +172,9 @@ class UnitYDataLoader:
 
															             return None
														
 
															         target_lang = sample.target.lang
														
 
															         if target_lang not in self.unit_encoders_per_lang:
														
 
															-            self.unit_encoders_per_lang[
														
 
															-                target_lang
														
 
															-            ] = self.unit_tokenizer.create_encoder(lang=target_lang)
														
 
															+            self.unit_encoders_per_lang[target_lang] = (
														
 
															+                self.unit_tokenizer.create_encoder(lang=target_lang)
														
 
															+            )
														
 
															         tokens = self.unit_encoders_per_lang[target_lang](
														
 
															             torch.LongTensor(sample.target.units).unsqueeze(0)
														
 
															         )
														
@@ -191,30 +193,58 @@ class UnitYDataLoader:
 
															         return torch.stack([tensor for tensor in padded_tensors], dim=0)
														
 
															     def _is_long_src_audio(self, sample: LangPairSample) -> bool:
														
 
															-        wav, sample_rate = torchaudio.load(sample.source.audio_local_path)
														
 
															-        length_s: float = max(wav.shape) / sample_rate
														
 
															-        return length_s > self.batching_config.max_audio_length_sec
														
 
															+        # HACK:: causes errored audios to be excluded but this is difficult to follow
														
 
															+        try:
														
 
															+            wav, sample_rate = torchaudio.load(sample.source.audio_local_path)
														
 
															+            length_s: float = max(wav.shape) / sample_rate
														
 
															+            return length_s > self.batching_config.max_audio_length_sec
														
 
															+        except:
														
 
															+            logger.exception(f"Failed to load sample path: {sample.source.audio_local_path}")
														
 
															+            return True
														
 
															+
														
 
															+    def _drop_overflow_samples(
														
 
															+        self, samples_with_fbanks: List[Tuple[LangPairSample, torch.Tensor]]
														
 
															+    ) -> List[Tuple[LangPairSample, torch.Tensor]]:
														
 
															+        # filter by src_tokens length (reverse)
														
 
															+        samples_with_fbanks = sorted(
														
 
															+            samples_with_fbanks, key=lambda sb: -sb[1].shape[0]
														
 
															+        )
														
 
															+        bwd = samples_with_fbanks[0][1].shape[0]
														
 
															+        max_samples_for_batch = max(1, self.max_src_tokens_per_batch // bwd)
														
 
															+        if max_samples_for_batch < len(samples_with_fbanks):
														
 
															+            samples_with_fbanks = samples_with_fbanks[:max_samples_for_batch]
														
 
															+        return samples_with_fbanks
														
 
															     def _prepare_batch(self, raw_samples: List[Dict[str, Any]]) -> MultimodalSeqsBatch:
														
 
															         samples = [LangPairSample.from_json(sample) for sample in raw_samples]
														
 
															         # input speech
														
 
															+        
														
 
															         #  - filter long audio samples
														
 
															-        filtered_samples = [sample for sample in samples if not self._is_long_src_audio(sample)]
														
 
															-        samples = filtered_samples if filtered_samples else [samples[0]]  # keep at least one sample
														
 
															-        src_tokens_list = [self._get_source_fbank(sample) for sample in samples]
														
 
															+        filtered_samples = [
														
 
															+            sample for sample in samples if not self._is_long_src_audio(sample)
														
 
															+        ]
														
 
															+        samples = (
														
 
															+            filtered_samples if filtered_samples else [samples[0]]
														
 
															+        )  # keep at least one sample
														
 
															+        with_fbanks = [(sample, self._get_source_fbank(sample)) for sample in samples]
														
 
															         #  - filter NaNs in fbanks
														
 
															-        with_nans = [fbank.isnan().any().item() for fbank in src_tokens_list]
														
 
															-        samples = [sample for sample, skip in zip(samples, with_nans) if not skip]
														
 
															-        assert len(samples) > 0
														
 
															-        src_tokens_list = [
														
 
															-            src_toks for src_toks, skip in zip(src_tokens_list, with_nans) if not skip
														
 
															+        filtered = [
														
 
															+            (sample, fbank)
														
 
															+            for sample, fbank in with_fbanks
														
 
															+            if not fbank.isnan().any().item()
														
 
															         ]
														
 
															+        filtered = self._drop_overflow_samples(filtered)
														
 
															+
														
 
															+        samples = [sample for sample, _ in filtered]
														
 
															+        src_tokens_list = [src_tokens for _, src_tokens in filtered]
														
 
															+        assert len(samples) > 0
														
 
															         src_tokens = self._batch_tensors(
														
 
															             src_tokens_list, pad_value=self.batching_config.fbank_feats_pad_idx
														
 
															         ).to(self.batching_config.float_dtype)
														
 
															         src_lengths = torch.LongTensor(
														
 
															             [src_tokens.shape[0] for src_tokens in src_tokens_list]
														
 
															         )
														
 
															+        
														
 
															         # output text
														
 
															         text_tokens_list = [
														
 
															             self._get_tokenized_target_text(sample) for sample in samples
														
--- a/src/seamless_communication/cli/m4t/finetune/finetune.py
+++ b/src/seamless_communication/cli/m4t/finetune/finetune.py
@@ -10,12 +10,9 @@ import os
 
															 from pathlib import Path
														
 
															 import torch
														
 
															-from fairseq2.models.nllb.tokenizer import NllbTokenizer
														
 
															 from seamless_communication.cli.m4t.finetune import dataloader, dist_utils, trainer
														
 
															 from seamless_communication.models.unity import (
														
 
															-    UnitTokenizer,
														
 
															-    UnitYModel,
														
 
															     load_unity_model,
														
 
															     load_unity_text_tokenizer,
														
 
															     load_unity_unit_tokenizer,
														
@@ -108,6 +105,12 @@ def init_parser() -> argparse.ArgumentParser:
 
															         default=10,
														
 
															         help=("Log inner loss after each `log_steps` training steps"),
														
 
															     )
														
 
															+    parser.add_argument(
														
 
															+        "--max_src_tokens",
														
 
															+        type=int,
														
 
															+        default=7000,
														
 
															+        help=("Maximum number of src_tokens per batch, used to avoid GPU OOM and maximize the effective batch size"),
														
 
															+    )
														
 
															     parser.add_argument(
														
 
															         "--mode",
														
 
															         type=trainer.FinetuneMode,
														
@@ -119,6 +122,14 @@ def init_parser() -> argparse.ArgumentParser:
 
															             "* `SPEECH_TO_TEXT` -- finetune only S2T"
														
 
															         ),
														
 
															     )
														
 
															+    parser.add_argument(
														
 
															+        "--freeze_layers",
														
 
															+        nargs="*",
														
 
															+        required=False,
														
 
															+        default=None,
														
 
															+        # TODO: better description
														
 
															+        help=("A list of modules to freeze in the model. If empty, everything will be trained."),
														
 
															+    )
														
 
															     parser.add_argument(
														
 
															         "--device",
														
 
															         type=str,
														
@@ -130,14 +141,19 @@ def init_parser() -> argparse.ArgumentParser:
 
															 def main() -> None:
														
 
															     args = init_parser().parse_args()
														
 
															+    
														
 
															     dist_utils.init_distributed([logger, trainer.logger])
														
 
															-    text_tokenizer: NllbTokenizer = load_unity_text_tokenizer(args.model_name)
														
 
															-    unit_tokenizer: UnitTokenizer = load_unity_unit_tokenizer(args.model_name)
														
 
															+    float_dtype = torch.float16 if torch.device(args.device).type != "cpu" else torch.bfloat16
														
 
															+    
														
 
															+    text_tokenizer = load_unity_text_tokenizer(args.model_name)
														
 
															+    unit_tokenizer = load_unity_unit_tokenizer(args.model_name)
														
 
															+    
														
 
															     finetune_params = trainer.FinetuneParams(
														
 
															+        model_name=args.model_name,
														
 
															         finetune_mode=args.mode,
														
 
															         save_model_path=args.save_model_to,
														
 
															         device=torch.device(args.device),
														
 
															-        float_dtype=torch.float16 if torch.device(args.device).type != "cpu" else torch.bfloat16,
														
 
															+        float_dtype=float_dtype,
														
 
															         train_batch_size=args.batch_size,
														
 
															         eval_batch_size=args.batch_size,
														
 
															         patience=args.patience,
														
@@ -147,22 +163,25 @@ def main() -> None:
 
															         eval_steps=args.eval_steps,
														
 
															         log_steps=args.log_steps,
														
 
															     )
														
 
															-    logger.info(f"Finetune params: {finetune_params}")
														
 
															-    model: UnitYModel = load_unity_model(
														
 
															-        args.model_name, device=torch.device("cpu"), dtype=torch.float32
														
 
															-    )
														
 
															+    
														
 
															+    logger.info(f"Finetune Params: {finetune_params}")
														
 
															+    
														
 
															+    model = load_unity_model(args.model_name, device=torch.device("cpu"), dtype=torch.float32)
														
 
															     assert model.target_vocab_info == text_tokenizer.vocab_info
														
 
															-    # (optional) delete unused params to reduce GPU memory consumption
														
 
															+    
														
 
															     if (
														
 
															         finetune_params.finetune_mode == trainer.FinetuneMode.SPEECH_TO_TEXT
														
 
															         and model.t2u_model is not None
														
 
															     ):
														
 
															         model.t2u_model = None
														
 
															+    
														
 
															     if model.text_encoder is not None:
														
 
															         model.text_encoder = None
														
 
															+    
														
 
															+    # Put model on selected device
														
 
															     model = model.to(finetune_params.device)
														
 
															-    logger.info(f"<{args.model_name}> {model}")
														
 
															+    # TODO: delete unused params to reduce GPU memory consumption
														
 
															     train_dataloader = dataloader.UnitYDataLoader(
														
 
															         text_tokenizer=text_tokenizer,
														
 
															         unit_tokenizer=unit_tokenizer,
														
@@ -174,7 +193,8 @@ def main() -> None:
 
															             float_dtype=finetune_params.float_dtype,
														
 
															         ),
														
 
															         dataset_manifest_path=args.train_dataset,
														
 
															-    )
														
 
															+        max_src_tokens_per_batch=args.max_src_tokens)
														
 
															+    
														
 
															     eval_dataloader = dataloader.UnitYDataLoader(
														
 
															         text_tokenizer=text_tokenizer,
														
 
															         unit_tokenizer=unit_tokenizer,
														
@@ -182,17 +202,18 @@ def main() -> None:
 
															             batch_size=finetune_params.eval_batch_size,
														
 
															             rank=dist_utils.get_rank(),
														
 
															             world_size=dist_utils.get_world_size(),
														
 
															-            max_audio_length_sec=100.0,
														
 
															+            max_audio_length_sec=75.0,
														
 
															             float_dtype=finetune_params.float_dtype,
														
 
															         ),
														
 
															-        dataset_manifest_path=args.eval_dataset,
														
 
															-    )
														
 
															+        dataset_manifest_path=args.eval_dataset)
														
 
															+    
														
 
															     finetune = trainer.UnitYFinetune(
														
 
															         model=model,
														
 
															         params=finetune_params,
														
 
															         train_data_loader=train_dataloader,
														
 
															         eval_data_loader=eval_dataloader,
														
 
															-    )
														
 
															+        freeze_modules=args.freeze_layers)
														
 
															+    
														
 
															     finetune.run()
														
--- a/src/seamless_communication/cli/m4t/finetune/trainer.py
+++ b/src/seamless_communication/cli/m4t/finetune/trainer.py
@@ -6,12 +6,13 @@
 
															 import logging
														
 
															+import time
														
 
															 from contextlib import contextmanager
														
 
															 from dataclasses import dataclass
														
 
															 from enum import Enum
														
 
															 from tqdm import tqdm
														
 
															 from pathlib import Path
														
 
															-from typing import Optional, Tuple
														
 
															+from typing import List, Optional, Tuple, Union
														
 
															 import torch
														
 
															 import torch.distributed as dist
														
@@ -40,6 +41,9 @@ class FinetuneMode(Enum):
 
															 @dataclass
														
 
															 class FinetuneParams:
														
 
															+    model_name: str
														
 
															+    """Model name of model being finetuned."""
														
 
															+    
														
 
															     save_model_path: Path
														
 
															     """Path were to save finetuned model."""
														
@@ -245,6 +249,7 @@ class UnitYFinetune:
 
															         params: FinetuneParams,
														
 
															         train_data_loader: dataloader.UnitYDataLoader,
														
 
															         eval_data_loader: Optional[dataloader.UnitYDataLoader] = None,
														
 
															+        freeze_modules: Optional[List[Union[str, torch.nn.Module]]] = None
														
 
															     ):
														
 
															         self.params = params
														
 
															         self.calc_loss = CalcLoss(
														
@@ -254,9 +259,15 @@ class UnitYFinetune:
 
															             if model.t2u_model is not None
														
 
															             else None,
														
 
															         )
														
 
															+        
														
 
															         self.model = self._wrap_model_for_trainining(model=model)
														
 
															+        if freeze_modules:
														
 
															+            self._freeze_modules(freeze_modules)
														
 
															+        
														
 
															         self.train_data_loader = train_data_loader
														
 
															         self.eval_data_loader = eval_data_loader
														
 
															+        
														
 
															+        self.grad_scaler = torch.cuda.amp.GradScaler()  # type: ignore
														
 
															         self.optimizer = AdamW(
														
 
															             params=self.model.parameters(),
														
 
															             lr=self.params.learning_rate,
														
@@ -266,7 +277,6 @@ class UnitYFinetune:
 
															             weight_decay=0.0,
														
 
															             fused=(self.params.device.type == "cuda"),
														
 
															         )
														
 
															-        self.grad_scaler = torch.cuda.amp.GradScaler()  # type: ignore
														
 
															         self.lr_scheduler = MyleLR(
														
 
															             optimizer=self.optimizer,
														
 
															             num_warmup_steps=self.params.warmup_steps,
														
@@ -301,6 +311,14 @@ class UnitYFinetune:
 
															             device_ids=[dist_utils.get_local_rank()],
														
 
															             find_unused_parameters=find_unused,
														
 
															         )
														
 
															+        
														
 
															+    def _freeze_modules(self, frozen_modules: List[str] = []) -> None:
														
 
															+        for icecube in frozen_modules:
														
 
															+            for (name, module) in self.model.named_modules():
														
 
															+                if name.startswith(icecube):
														
 
															+                    logger.info(f"Freezing Module: {name}")
														
 
															+                    for param in module.parameters():
														
 
															+                        param.requires_grad = False
														
 
															     def _update_eval_stats(self, eval_loss: float) -> None:
														
 
															         self.is_best_state = (
														
@@ -317,25 +335,26 @@ class UnitYFinetune:
 
															             f"patience_steps_left={self.patience_left}"
														
 
															         )
														
 
															-    def _eval_model(self) -> None:
														
 
															+    @torch.no_grad()
														
 
															+    def _eval_model(self, n_batches: int) -> None:
														
 
															         """Calc avg loss on eval dataset and update evaluation stats"""
														
 
															         if self.eval_data_loader is None:
														
 
															             return
														
 
															-        logger.info("Run evaluation")
														
 
															+        logger.info(f"Evaluation Step {self.update_idx // self.params.eval_steps}...")
														
 
															         loss_hist = LossCollector(device=self.params.device)
														
 
															         self.model.eval()
														
 
															-        with torch.no_grad():
														
 
															-            for batch in tqdm(self.eval_data_loader.get_dataloader()):
														
 
															-                assert batch.speech_to_text.src_tokens is not None
														
 
															-                with torch.autocast(device_type=self.params.device.type, dtype=self.params.float_dtype):
														
 
															-                    loss = self.calc_loss(batch, *self.model(batch))
														
 
															-                if loss.isnan():
														
 
															-                    logger.warning("Eval loss value is NaN, setting to inf")
														
 
															-                    loss_val = float("Inf")
														
 
															-                else:
														
 
															-                    loss_val = loss.item()
														
 
															-                del batch  # force memory release
														
 
															-                loss_hist.update(1, loss_val)
														
 
															+        for batch in self.eval_data_loader.get_dataloader():
														
 
															+            if n_batches == 0:
														
 
															+                break
														
 
															+            assert batch.speech_to_text.src_tokens is not None
														
 
															+            with torch.autocast(device_type=self.params.device.type, dtype=self.params.float_dtype):
														
 
															+                loss = self.calc_loss(batch, *self.model(batch))
														
 
															+            if loss.isnan():
														
 
															+                logger.warning("Eval batch loss value is NaN, skipping")
														
 
															+                continue
														
 
															+            del batch  # force memory release
														
 
															+            loss_hist.update(1, loss.item())
														
 
															+            n_batches -= 1
														
 
															         eval_loss = loss_hist.reduce()
														
 
															         self._update_eval_stats(eval_loss)
														
@@ -351,53 +370,70 @@ class UnitYFinetune:
 
															                 f"last lr={self.lr_scheduler.get_last_lr()[0]:.2E}"
														
 
															             )
														
 
															-    def _train_step(self, batch: dataloader.MultimodalSeqsBatch) -> None:
														
 
															+    def _train_step(self, batch: List[dataloader.MultimodalSeqsBatch]) -> None:
														
 
															         """Run one train step"""
														
 
															         self.model.train()
														
 
															         self.optimizer.zero_grad()
														
 
															         with torch.autocast(device_type=self.params.device.type, dtype=self.params.float_dtype):
														
 
															             tokens, units = self.model(batch)
														
 
															+        
														
 
															         loss = self.calc_loss(batch, tokens, units)
														
 
															         if loss.isnan().any().item():
														
 
															             logger.error(batch.speech_to_text)
														
 
															-            raise RuntimeError("Loss is Nan. Terminating.")
														
 
															+            raise RuntimeError("Train loss is NaN! Something is wrong in the model!")
														
 
															+        
														
 
															         self.grad_scaler.scale(loss).backward()
														
 
															         self.grad_scaler.step(self.optimizer)
														
 
															         self.grad_scaler.update()
														
 
															         self.lr_scheduler.step()
														
 
															+        
														
 
															         assert batch.speech_to_text.src_tokens is not None
														
 
															         self.train_loss_hist.update(1, loss.item())
														
 
															         self._train_step_log()
														
 
															+        self.update_idx += 1
														
 
															     def _save_model(self) -> None:
														
 
															         logger.info("Saving model")
														
 
															         if dist_utils.is_main_process():
														
 
															-            state_dict = {
														
 
															-                key.replace("module.model.", ""): value
														
 
															-                for key, value in self.model.state_dict().items()
														
 
															-            }
														
 
															-            torch.save(state_dict, self.params.save_model_path)
														
 
															+            torch.save({
														
 
															+                "model_name": self.params.model_name,
														
 
															+                "model": {
														
 
															+                    key.replace("module.model.model.", ""): value
														
 
															+                    for key, value in self.model.state_dict().items()
														
 
															+                }
														
 
															+            }, self.params.save_model_path)
														
 
															         if dist_utils.is_dist_initialized():
														
 
															             dist.barrier()
														
 
															     def run(self) -> None:
														
 
															-        logger.info("Start finetuning")
														
 
															+        logger.info("Start Finetuning")
														
 
															         self._reset_stats()
														
 
															         self._eval_model()
														
 
															-        batch_itr = self.train_data_loader.get_dataloader()
														
 
															+        
														
 
															+        train_dataloader = self.train_data_loader.get_dataloader()
														
 
															+        
														
 
															         while self.epoch_idx < self.params.max_epochs and self.patience_left:
														
 
															-            for train_batch in batch_itr:
														
 
															-                self._train_step(batch=train_batch)
														
 
															-                if self.update_idx and self.update_idx % self.params.eval_steps == 0:
														
 
															-                    self._eval_model()
														
 
															-                    if self.is_best_state:
														
 
															-                        self._save_model()
														
 
															-                    elif not self.patience_left:
														
 
															-                        no_improve_steps = self.params.eval_steps * self.params.patience
														
 
															-                        logger.info(
														
 
															-                            "Early termination, as eval loss did not improve "
														
 
															-                            f"over last {no_improve_steps} updates"
														
 
															-                        )
														
 
															-                        break
														
 
															-                self.update_idx += 1
														
 
															-            self.epoch_idx += 1
														
 
															+            for train_batch in tqdm(train_dataloader, desc="Training Steps"):
														
 
															+                # Run batch through train step
														
 
															+                self._train_step(train_batch)
														
 
															+                
														
 
															+                # Perform eval if its time to eval
														
 
															+                if not self.update_idx or self.update_idx % self.params.eval_steps != 0:
														
 
															+                    continue
														
 
															+                
														
 
															+                # Clear GPU memory for eval
														
 
															+                torch.cuda.empty_cache()
														
 
															+                self._eval_model(n_batches=100)
														
 
															+                    
														
 
															+                # Save the current model if its the best we've ever had
														
 
															+                if self.is_best_state:
														
 
															+                    self._save_model()
														
 
															+                elif not self.patience_left:
														
 
															+                    no_improve_steps = self.params.eval_steps * self.params.patience
														
 
															+                    logger.info(
														
 
															+                        "Early termination, as eval loss did not improve "
														
 
															+                        f"over last {no_improve_steps} updates"
														
 
															+                    )
														
 
															+                    break
														
 
															+                
														
 
															+            self.epoch_idx += 1
														
--- a/src/seamless_communication/datasets/huggingface.py
+++ b/src/seamless_communication/datasets/huggingface.py
@@ -28,7 +28,7 @@ class SpeechTokenizer:
 
															 class Speech2SpeechFleursDatasetBuilder:
														
 
															     """Assembles speech2speech dataset from google/fleurs on HuggingFace"""
														
 
															-    HF_FLEURS_DATASET_NAME = "google/fleurs"
														
 
															+    DATASET_NAME = "google/fleurs"
														
 
															     def __init__(
														
 
															         self,
														
@@ -91,7 +91,113 @@ class Speech2SpeechFleursDatasetBuilder:
 
															     def iterate_lang_audio_samples(self, lang: str) -> Iterable[MultimodalSample]:
														
 
															         ds = load_dataset(
														
 
															-            self.HF_FLEURS_DATASET_NAME,
														
 
															+            self.DATASET_NAME,
														
 
															+            lang,
														
 
															+            split=self.split,
														
 
															+            cache_dir=self.dataset_cache_dir,
														
 
															+            streaming=False,
														
 
															+            trust_remote_code=True,
														
 
															+        )
														
 
															+        for item in ds:
														
 
															+            audio_path = os.path.join(
														
 
															+                os.path.dirname(item["path"]), item["audio"]["path"]
														
 
															+            )
														
 
															+            (sample_id, audio_local_path, waveform, sampling_rate, text) = (
														
 
															+                item["id"],
														
 
															+                audio_path,
														
 
															+                item["audio"]["array"],
														
 
															+                item["audio"]["sampling_rate"],
														
 
															+                item["transcription"],
														
 
															+            )
														
 
															+            yield self._prepare_sample(
														
 
															+                sample_id=sample_id,
														
 
															+                audio_local_path=audio_local_path,
														
 
															+                waveform_npy=waveform,
														
 
															+                sampling_rate=sampling_rate,
														
 
															+                text=text,
														
 
															+                lang=lang,
														
 
															+            )
														
 
															+
														
 
															+    def __iter__(self) -> Iterable[LangPairSample]:
														
 
															+        logger.info(f"Loading {self.target_lang} samples")
														
 
															+        target_samples: Dict[int, MultimodalSample] = {}
														
 
															+        for idx, sample in enumerate(
														
 
															+            self.iterate_lang_audio_samples(lang=self.target_lang)
														
 
															+        ):
														
 
															+            if idx and idx % 100 == 0:
														
 
															+                logger.info(f"..loaded {idx} target samples")
														
 
															+            target_samples[sample.id] = sample
														
 
															+
														
 
															+        logger.info(f"Loading {self.source_lang} samples")
														
 
															+        for idx, sample in enumerate(
														
 
															+            self.iterate_lang_audio_samples(lang=self.source_lang)
														
 
															+        ):
														
 
															+            if idx and idx % 100 == 0:
														
 
															+                logger.info(f"..loaded {idx} source samples")
														
 
															+            if sample.id in target_samples:
														
 
															+                yield LangPairSample(source=sample, target=target_samples[sample.id])
														
 
															+
														
 
															+
														
 
															+class Speech2TextGigaspeechDatasetBuilder:
														
 
															+    """ Assembles speech2speech dataset from google/fleurs on HuggingFace.
														
 
															+        This dataset requires signing an license agreement and using an auth token.
														
 
															+    """
														
 
															+
														
 
															+    DATASET_NAME = "speechcolab/gigaspeech"
														
 
															+
														
 
															+    def __init__(
														
 
															+        self,
														
 
															+        auth_token: str,
														
 
															+        split: str = "test",
														
 
															+        skip_source_audio: bool = True,
														
 
															+        skip_target_audio: bool = True,
														
 
															+        audio_dtype: torch.dtype = torch.float32,
														
 
															+        dataset_cache_dir: Optional[str] = None,
														
 
															+        speech_tokenizer: Optional[SpeechTokenizer] = None,
														
 
															+    ):
														
 
															+        self.auth_token = auth_token
														
 
															+        self.split = split
														
 
															+        self.dataset_cache_dir = dataset_cache_dir
														
 
															+        self.audio_dtype = audio_dtype
														
 
															+        self.skip_source_audio = skip_source_audio
														
 
															+        self.skip_target_audio = skip_target_audio
														
 
															+        self.speech_tokenizer = speech_tokenizer
														
 
															+
														
 
															+    def _prepare_sample(
														
 
															+        self,
														
 
															+        sample_id: int,
														
 
															+        lang: str,
														
 
															+        text: str,
														
 
															+        audio_local_path: Optional[str] = None,
														
 
															+        waveform_npy: Optional[np.ndarray] = None,
														
 
															+        sampling_rate: Optional[int] = None,
														
 
															+    ) -> MultimodalSample:
														
 
															+        if waveform_npy is not None:
														
 
															+            waveform = torch.from_numpy(waveform_npy).to(self.audio_dtype)
														
 
															+        else:
														
 
															+            waveform = None
														
 
															+        if self.speech_tokenizer is not None and waveform_npy is not None:
														
 
															+            assert waveform is not None
														
 
															+            assert sampling_rate is not None
														
 
															+            units_tensor = self.speech_tokenizer.encode(
														
 
															+                waveform, sampling_rate
														
 
															+            ).reshape(-1)
														
 
															+            units = units_tensor.tolist()
														
 
															+        else:
														
 
															+            units = None
														
 
															+        return MultimodalSample(
														
 
															+            id=sample_id,
														
 
															+            lang=lang,
														
 
															+            text=text.strip(),
														
 
															+            audio_local_path=audio_local_path,
														
 
															+            waveform=waveform,
														
 
															+            sampling_rate=sampling_rate,
														
 
															+            units=units,
														
 
															+        )
														
 
															+
														
 
															+    def iterate_lang_audio_samples(self, lang: str) -> Iterable[MultimodalSample]:
														
 
															+        ds = load_dataset(
														
 
															+            self.DATASET_NAME,
														
 
															             lang,
														
 
															             split=self.split,
														
 
															             cache_dir=self.dataset_cache_dir,