2 years ago · 00118c21cc
--- a/src/seamless_communication/cards/vocoder_mel.yaml
+++ b/src/seamless_communication/cards/vocoder_mel.yaml
@@ -7,4 +7,5 @@
 
				 name: vocoder_mel
			
 
				 model_type: vocoder_mel_hifigan
			
 
				 model_arch: base_mel
			
 
				-checkpoint: "file:///large_experiments/seamless/ust/changhan/checkpoints/fairseq2/pretssel_hifigan.pt"
			
 
				+checkpoint: "file:///large_experiments/seamless/workstream/expressivity/oss/checkpoints/16khz_pretssel_hifigan.pt"
			
 
				+sample_rate: 16000
			
--- a/src/seamless_communication/cards/vocoder_mel_24khz.yaml
+++ b/src/seamless_communication/cards/vocoder_mel_24khz.yaml
@@ -0,0 +1,11 @@
 
				+# Copyright (c) Meta Platforms, Inc. and affiliates.
			
 
				+# All rights reserved.
			
 
				+#
			
 
				+# This source code is licensed under the BSD-style license found in the
			
 
				+# LICENSE file in the root directory of this source tree.
			
 
				+
			
 
				+name: vocoder_mel_24khz
			
 
				+model_type: vocoder_mel_hifigan
			
 
				+model_arch: 24khz_mel
			
 
				+checkpoint: "file:///large_experiments/seamless/workstream/expressivity/oss/checkpoints/24khz_pretssel_hifigan.pt"
			
 
				+sample_rate: 24000
			
--- a/src/seamless_communication/inference/pretssel_generator.py
+++ b/src/seamless_communication/inference/pretssel_generator.py
@@ -7,6 +7,7 @@ from typing import Callable, Dict, List, Optional, Tuple, Union
 
				 
			
 
				 import torch
			
 
				 import torch.nn as nn
			
 
				+from fairseq2.assets import asset_store
			
 
				 from fairseq2.assets.card import AssetCard
			
 
				 from fairseq2.data import Collater, SequenceData
			
 
				 from fairseq2.nn.padding import PaddingMask, get_seqs_and_padding_mask
			
@@ -53,6 +54,9 @@ class PretsselGenerator(nn.Module):
 
				         )
			
 
				         self.pretssel_model.eval()
			
 
				 
			
 
				+        vocoder_model_card = asset_store.retrieve_card(vocoder_name_or_card)
			
 
				+        self.output_sample_rate = vocoder_model_card.field("sample_rate").as_(int)
			
 
				+
			
 
				         self.unit_tokenizer = load_unity_unit_tokenizer(model_name_or_card)
			
 
				         self.unit_collate = Collater(pad_value=self.unit_tokenizer.vocab_info.pad_idx)
			
 
				         self.duration_collate = Collater(pad_value=0)
			
@@ -78,7 +82,6 @@ class PretsselGenerator(nn.Module):
 
				         units: List[List[int]],
			
 
				         tgt_lang: str,
			
 
				         prosody_encoder_input: SequenceData,
			
 
				-        sample_rate: int = 16000,
			
 
				     ) -> BatchedSpeechOutput:
			
 
				         list_units, durations = [], []
			
 
				         unit_eos_token = torch.tensor(
			
@@ -130,5 +133,5 @@ class PretsselGenerator(nn.Module):
 
				         return BatchedSpeechOutput(
			
 
				             units=units,
			
 
				             audio_wavs=audio_wavs,
			
 
				-            sample_rate=sample_rate,
			
 
				+            sample_rate=self.output_sample_rate,
			
 
				         )
			
--- a/src/seamless_communication/models/vocoder/__init__.py
+++ b/src/seamless_communication/models/vocoder/__init__.py
@@ -15,6 +15,9 @@ from seamless_communication.models.vocoder.codehifigan import (
 
				     CodeGenerator as CodeGenerator,
			
 
				 )
			
 
				 from seamless_communication.models.vocoder.hifigan import Generator as Generator
			
 
				+from seamless_communication.models.vocoder.loader import (
			
 
				+    load_mel_vocoder_config as load_mel_vocoder_config,
			
 
				+)
			
 
				 from seamless_communication.models.vocoder.loader import (
			
 
				     load_mel_vocoder_model as load_mel_vocoder_model,
			
 
				 )
			
--- a/src/seamless_communication/models/vocoder/builder.py
+++ b/src/seamless_communication/models/vocoder/builder.py
@@ -162,6 +162,26 @@ def _base_mel_vocoder() -> VocoderConfig:
 
				     )
			
 
				 
			
 
				 
			
 
				+@mel_vocoder_arch("24khz_mel")
			
 
				+def _base_mel_vocoder() -> VocoderConfig:
			
 
				+    return VocoderConfig(
			
 
				+        upsample_rates=[5, 4, 4, 3],
			
 
				+        upsample_kernel_sizes=[10, 8, 8, 6],
			
 
				+        upsample_initial_channel=512,
			
 
				+        resblock_kernel_sizes=[3, 7, 11],
			
 
				+        resblock_dilation_sizes=[[1, 3, 5], [1, 3, 5], [1, 3, 5]],
			
 
				+        model_in_dim=80,
			
 
				+        num_embeddings=0,
			
 
				+        embedding_dim=0,
			
 
				+        dur_predictor_params={},
			
 
				+        lang_embedding_dim=0,
			
 
				+        num_langs=0,
			
 
				+        spkr_embedding_dim=0,
			
 
				+        num_spkrs=0,
			
 
				+        lang_spkr_idx_map={},
			
 
				+    )
			
 
				+
			
 
				+
			
 
				 class MelVocoderBuilder:
			
 
				     config: VocoderConfig
			
 
				     device: Optional[Device]