2 years ago · d57b784177
--- a/src/seamless_communication/models/audio_to_units/.gitkeep
+++ b/src/seamless_communication/models/audio_to_units/.gitkeep
--- a/src/seamless_communication/models/inference/translator.py
+++ b/src/seamless_communication/models/inference/translator.py
@@ -98,8 +98,8 @@ class Translator(nn.Module):
 
															         generator = UnitYGenerator(
														
 
															             model,
														
 
															             text_tokenizer,
														
 
															-            unit_tokenizer,
														
 
															             tgt_lang,
														
 
															+            unit_tokenizer if output_modality == Modality.SPEECH else None,
														
 
															             text_opts=SequenceGeneratorOptions(beam_size=5, soft_max_seq_len=(1, 200)),
														
 
															             unit_opts=SequenceGeneratorOptions(
														
 
															                 beam_size=5, soft_max_seq_len=(max_len_a, 50)
														
--- a/src/seamless_communication/models/unity/generator.py
+++ b/src/seamless_communication/models/unity/generator.py
@@ -31,15 +31,15 @@ class UnitYGenerator:
 
															     model: UnitYModel
														
 
															     s2t_generator: SequenceToTextGenerator
														
 
															     t2t_generator: Optional[SequenceToTextGenerator]
														
 
															-    unit_decoder: UnitTokenDecoder
														
 
															-    unit_generator: Seq2SeqGenerator
														
 
															+    unit_decoder: Optional[UnitTokenDecoder]
														
 
															+    unit_generator: Optional[Seq2SeqGenerator]
														
 
															     def __init__(
														
 
															         self,
														
 
															         model: UnitYModel,
														
 
															         text_tokenizer: TextTokenizer,
														
 
															-        unit_tokenizer: UnitTokenizer,
														
 
															         target_lang: str,
														
 
															+        unit_tokenizer: Optional[UnitTokenizer] = None,
														
 
															         text_opts: Optional[SequenceGeneratorOptions] = None,
														
 
															         unit_opts: Optional[SequenceGeneratorOptions] = None,
														
 
															     ) -> None:
														
@@ -97,25 +97,28 @@ class UnitYGenerator:
 
															                 t2t_model, text_tokenizer, target_lang, text_opts
														
 
															             )
														
 
															+        self.unit_generator = None
														
 
															+        self.unit_decoder = None
														
 
															         # Set up unit generator.
														
 
															-        self.unit_decoder = unit_tokenizer.create_decoder()
														
 
															+        if unit_tokenizer is not None:
														
 
															+            self.unit_decoder = unit_tokenizer.create_decoder()
														
 
															-        unit_encoder = unit_tokenizer.create_encoder(
														
 
															-            lang=target_lang, device=infer_device(model.t2u_model)
														
 
															-        )
														
 
															-
														
 
															-        if unit_opts is None:
														
 
															-            # Speech sequences are typically much longer than text sequences.
														
 
															-            unit_opts = SequenceGeneratorOptions(
														
 
															-                soft_max_seq_len=(1, 50), hard_max_seq_len=5000
														
 
															+            unit_encoder = unit_tokenizer.create_encoder(
														
 
															+                lang=target_lang, device=infer_device(model.t2u_model)
														
 
															             )
														
 
															-        self.unit_generator = Seq2SeqGenerator(
														
 
															-            model.t2u_model,
														
 
															-            unit_tokenizer.vocab_info,
														
 
															-            unit_encoder.prefix_indices,
														
 
															-            unit_opts,
														
 
															-        )
														
 
															+            if unit_opts is None:
														
 
															+                # Speech sequences are typically much longer than text sequences.
														
 
															+                unit_opts = SequenceGeneratorOptions(
														
 
															+                    soft_max_seq_len=(1, 50), hard_max_seq_len=5000
														
 
															+                )
														
 
															+
														
 
															+            self.unit_generator = Seq2SeqGenerator(
														
 
															+                model.t2u_model,
														
 
															+                unit_tokenizer.vocab_info,
														
 
															+                unit_encoder.prefix_indices,
														
 
															+                unit_opts,
														
 
															+            )
														
 
															     @torch.inference_mode()
														
 
															     def __call__(
														
@@ -176,6 +179,9 @@ class UnitYGenerator:
 
															             decoder_output, decoder_padding_mask
														
 
															         )
														
 
															+        assert self.unit_generator is not None
														
 
															+        assert self.unit_decoder is not None
														
 
															+
														
 
															         unit_gen_output = self.unit_generator(
														
 
															             t2u_encoder_output,
														
 
															             t2u_encoder_padding_mask,