2 years ago · b5b98699c6
--- a/src/seamless_communication/streaming/agents/unity_pipeline.py
+++ b/src/seamless_communication/streaming/agents/unity_pipeline.py
@@ -7,7 +7,7 @@ from __future__ import annotations
 
				 
			
 
				 import logging
			
 
				 from argparse import ArgumentParser, Namespace
			
 
				-from typing import Any, List, Optional
			
 
				+from typing import Any, Dict, List, Optional
			
 
				 
			
 
				 import torch
			
 
				 from fairseq2.assets import asset_store
			
@@ -27,7 +27,7 @@ from seamless_communication.streaming.agents.common import (
 
				     AgentStates,
			
 
				     EarlyStoppingMixin,
			
 
				 )
			
 
				-from simuleval.agents import AgentPipeline
			
 
				+from simuleval.agents import AgentPipeline, TreeAgentPipeline
			
 
				 from simuleval.agents.agent import GenericAgent
			
 
				 from simuleval.data.segments import Segment
			
 
				 
			
@@ -88,11 +88,8 @@ class UnitYPipelineMixin:
 
				             type=str,
			
 
				         )
			
 
				 
			
 
				-
			
 
				-class UnitYAgentPipeline(UnitYPipelineMixin, AgentPipeline):
			
 
				-    pipeline: List[GenericAgent] = []
			
 
				-
			
 
				-    def __init__(self, args: Namespace):
			
 
				+    @classmethod
			
 
				+    def load_model(cls, args: Namespace) -> Dict[str, Any]:
			
 
				         if not torch.cuda.is_available() and "cuda" in args.device:
			
 
				             raise ValueError("CUDA not available, use CPU.")
			
 
				 
			
@@ -142,25 +139,36 @@ class UnitYAgentPipeline(UnitYPipelineMixin, AgentPipeline):
 
				         )
			
 
				         monotonic_decoder_model.eval()
			
 
				 
			
 
				-        self.vocoder = None
			
 
				+        vocoder = None
			
 
				         if args.vocoder_name is not None and output_modality == Modality.SPEECH:
			
 
				-            self.vocoder = load_vocoder_model(
			
 
				+            vocoder = load_vocoder_model(
			
 
				                 args.vocoder_name, device=args.device, dtype=args.dtype
			
 
				             )
			
 
				-            self.vocoder.eval()
			
 
				+            vocoder.eval()
			
 
				+
			
 
				+        return {
			
 
				+            "unity_model": unity_model,
			
 
				+            "unity_config": unity_config,
			
 
				+            "monotonic_decoder_model": monotonic_decoder_model,
			
 
				+            "monotonic_decoder_config": monotonic_decoder_config,
			
 
				+            "text_tokenizer": text_tokenizer,
			
 
				+            "unit_tokenizer": unit_tokenizer,
			
 
				+            "vocoder": vocoder,
			
 
				+        }
			
 
				+
			
 
				+
			
 
				+class UnitYAgentPipeline(UnitYPipelineMixin, AgentPipeline):
			
 
				+    pipeline: List[GenericAgent] = []
			
 
				+
			
 
				+    def __init__(self, args: Namespace):
			
 
				+        models_and_configs = self.load_model(args)
			
 
				 
			
 
				         module_list = []
			
 
				         for p in self.pipeline:
			
 
				             module_list.append(
			
 
				                 p.from_args(
			
 
				                     args,
			
 
				-                    unity_model=unity_model,
			
 
				-                    unity_config=unity_config,
			
 
				-                    monotonic_decoder_model=monotonic_decoder_model,
			
 
				-                    monotonic_decoder_config=monotonic_decoder_config,
			
 
				-                    text_tokenizer=text_tokenizer,
			
 
				-                    unit_tokenizer=unit_tokenizer,
			
 
				-                    vocoder=self.vocoder,
			
 
				+                    **models_and_configs,
			
 
				                 )
			
 
				             )
			
 
				 
			
@@ -187,5 +195,46 @@ class UnitYAgentPipeline(UnitYPipelineMixin, AgentPipeline):
 
				         return output_segment
			
 
				 
			
 
				     @classmethod
			
 
				-    def from_args(cls, args: Any) -> UnitYPipelineMixin:
			
 
				+    def from_args(cls, args: Any) -> UnitYAgentPipeline:
			
 
				+        return cls(args)
			
 
				+
			
 
				+
			
 
				+class UnitYAgentTreePipeline(UnitYPipelineMixin, TreeAgentPipeline):
			
 
				+    pipeline = {}
			
 
				+
			
 
				+    def __init__(self, args: Namespace):
			
 
				+        models_and_configs = self.load_model(args)
			
 
				+
			
 
				+        assert len(self.pipeline) > 0
			
 
				+        module_dict = {}
			
 
				+        for module_class, children in self.pipeline.items():
			
 
				+            module_dict[module_class.from_args(args, *models_and_configs)] = children
			
 
				+
			
 
				+    @classmethod
			
 
				+    def from_args(cls, args: Any) -> UnitYAgentPipeline:
			
 
				         return cls(args)
			
 
				+
			
 
				+    def pop(
			
 
				+        self, states: Optional[List[Optional[AgentStates]]] = None
			
 
				+    ) -> List[Segment]:
			
 
				+        output_segment = super().pop(states)
			
 
				+        if states is None:
			
 
				+            # Not stateless
			
 
				+            first_states = self.source_module.states
			
 
				+        else:
			
 
				+            assert len(states) == len(self.module_dict)
			
 
				+            first_states = states[self.source_module]
			
 
				+
			
 
				+        if not first_states.source_finished and any(
			
 
				+            segment.finished for segment in output_segment
			
 
				+        ):
			
 
				+            # An early stop.
			
 
				+            # The temporary solution is to start over
			
 
				+            if states is not None:
			
 
				+                maybe_reset_states(states.values())
			
 
				+            else:
			
 
				+                self.reset()
			
 
				+            for segment in output_segment:
			
 
				+                segment.finished = False
			
 
				+
			
 
				+        return output_segment