2 years ago · b91e141a16
--- a/src/seamless_communication/models/inference/translator.py
+++ b/src/seamless_communication/models/inference/translator.py
@@ -80,7 +80,7 @@ class Translator(nn.Module):
 
				             dtype=dtype,
			
 
				         )
			
 
				         self.collate = Collater(
			
 
				-            pad_idx=self.text_tokenizer.vocab_info.pad_idx, pad_to_multiple=2
			
 
				+            pad_value=self.text_tokenizer.vocab_info.pad_idx, pad_to_multiple=2
			
 
				         )
			
 
				         # Load the vocoder.
			
 
				         self.vocoder: Vocoder = self.load_model_for_inference(
			
--- a/src/seamless_communication/models/unit_extraction/unit_extraction.py
+++ b/src/seamless_communication/models/unit_extraction/unit_extraction.py
@@ -48,7 +48,7 @@ class UnitExtractor(nn.Module):
 
				         self.model = Wav2Vec2LayerOutputModel(wav2vec2_model)
			
 
				         self.device = device
			
 
				         self.decode_audio = AudioDecoder(dtype=torch.float32, device=device)
			
 
				-        self.collate = Collater(pad_idx=2, pad_to_multiple=2)
			
 
				+        self.collate = Collater(pad_value=2, pad_to_multiple=2)
			
 
				         self.kmeans_model = KmeansModel(kmeans_uri, device)
			
 
				 
			
 
				     @torch.inference_mode()
			
--- a/src/seamless_communication/models/unity/length_regulator.py
+++ b/src/seamless_communication/models/unity/length_regulator.py
@@ -185,7 +185,7 @@ class VarianceAdaptor(Module):
 
				         )
			
 
				 
			
 
				         # We need to apply the padding_mask again since we clamp by min_duration.
			
 
				-        durations = apply_padding_mask(durations, padding_mask, fill_value=0)
			
 
				+        durations = apply_padding_mask(durations, padding_mask, pad_value=0)
			
 
				 
			
 
				         # TODO: Implement pitch, energy predictors.
			
 
				         # TODO: Implement GaussianUpsampling.