2 years ago · b91e141a16
--- a/src/seamless_communication/models/inference/translator.py
+++ b/src/seamless_communication/models/inference/translator.py
@@ -80,7 +80,7 @@ class Translator(nn.Module):
 
															             dtype=dtype,
														
 
															         )
														
 
															         self.collate = Collater(
														
 
															-            pad_idx=self.text_tokenizer.vocab_info.pad_idx, pad_to_multiple=2
														
 
															+            pad_value=self.text_tokenizer.vocab_info.pad_idx, pad_to_multiple=2
														
 
															         )
														
 
															         # Load the vocoder.
														
 
															         self.vocoder: Vocoder = self.load_model_for_inference(
														
--- a/src/seamless_communication/models/unit_extraction/unit_extraction.py
+++ b/src/seamless_communication/models/unit_extraction/unit_extraction.py
@@ -48,7 +48,7 @@ class UnitExtractor(nn.Module):
 
															         self.model = Wav2Vec2LayerOutputModel(wav2vec2_model)
														
 
															         self.device = device
														
 
															         self.decode_audio = AudioDecoder(dtype=torch.float32, device=device)
														
 
															-        self.collate = Collater(pad_idx=2, pad_to_multiple=2)
														
 
															+        self.collate = Collater(pad_value=2, pad_to_multiple=2)
														
 
															         self.kmeans_model = KmeansModel(kmeans_uri, device)
														
 
															     @torch.inference_mode()
														
--- a/src/seamless_communication/models/unity/length_regulator.py
+++ b/src/seamless_communication/models/unity/length_regulator.py
@@ -185,7 +185,7 @@ class VarianceAdaptor(Module):
 
															         )
														
 
															         # We need to apply the padding_mask again since we clamp by min_duration.
														
 
															-        durations = apply_padding_mask(durations, padding_mask, fill_value=0)
														
 
															+        durations = apply_padding_mask(durations, padding_mask, pad_value=0)
														
 
															         # TODO: Implement pitch, energy predictors.
														
 
															         # TODO: Implement GaussianUpsampling.