1 year ago · 2238cea072
--- a/ggml/examples/unity/fairseq2.cpp
+++ b/ggml/examples/unity/fairseq2.cpp
@@ -59,7 +59,8 @@ extern "C" ggml_tensor* Linear_forward(
 
				 extern "C" ggml_tensor* LayerNorm_forward(
			
 
				     fairseq2_model& model,
			
 
				     const std::string &prefix,
			
 
				-    ggml_tensor* input) {
			
 
				+    ggml_tensor* input
			
 
				+) {
			
 
				     ggml_tensor* weight = model.tensors[prefix + ".weight"];
			
 
				     GGML_ASSERT(weight != nullptr);
			
 
				     ggml_tensor* bias = model.tensors[prefix + ".bias"];
			
@@ -222,6 +223,74 @@ extern "C" ggml_tensor* StandardTransformerEncoderLayer_forward(
 
				     return seqs;
			
 
				 }
			
 
				 
			
 
				+struct ggml_tensor * ggml_slice(
			
 
				+        struct ggml_context * ctx,
			
 
				+        struct ggml_tensor  * a,
			
 
				+        int axis,
			
 
				+        int64_t               start,
			
 
				+        int64_t               end
			
 
				+    ) {
			
 
				+    int64_t ne[4];
			
 
				+    std::copy(a->ne, a->ne + 4, ne);
			
 
				+    if (start < 0) start = ne[axis] + start;
			
 
				+    if (end < 0) end = ne[axis] + end;
			
 
				+    GGML_ASSERT(0 <= start);
			
 
				+    GGML_ASSERT(start <= end);
			
 
				+    GGML_ASSERT(end <= ne[axis]);
			
 
				+
			
 
				+    ne[axis] = end - start;
			
 
				+    size_t offset = a->nb[axis] * start;
			
 
				+
			
 
				+    size_t* nb = a->nb;
			
 
				+    ggml_tensor* result = ggml_view_4d(ctx, a, ne[0], ne[1], ne[2], ne[3], nb[1], nb[2], nb[3], offset);
			
 
				+    result->n_dims = a->n_dims;
			
 
				+    return result;
			
 
				+}
			
 
				+
			
 
				+
			
 
				+extern "C" ggml_tensor* PositionalEmbedding_forward(
			
 
				+    fairseq2_model& model,
			
 
				+    const std::string& prefix,
			
 
				+    ggml_tensor* embeds
			
 
				+) {
			
 
				+    int encoding_dim = embeds->ne[0];
			
 
				+    int seq_len = embeds->ne[1];
			
 
				+    ggml_tensor* full_pos_embeds = model.tensors[prefix];
			
 
				+    ggml_tensor* pos_embeds = ggml_slice(model.ctx, full_pos_embeds, /*axis*/1, 0, seq_len);
			
 
				+    return ggml_add(model.ctx, embeds, pos_embeds);
			
 
				+}
			
 
				+
			
 
				+extern "C" ggml_tensor* TransformerEmbeddingFrontend_forward(
			
 
				+    fairseq2_model& model,
			
 
				+    const std::string& prefix,
			
 
				+    ggml_tensor* seqs
			
 
				+    // TODO: state_bag
			
 
				+) {
			
 
				+    ggml_context* ctx = model.ctx;
			
 
				+    ggml_tensor* embed_weights = model.tensors[prefix + ".embed.weight"];
			
 
				+    GGML_ASSERT(embed_weights != nullptr);
			
 
				+    ggml_tensor* embeds = ggml_get_rows(ctx, embed_weights, seqs);
			
 
				+
			
 
				+    // padding_mask = to_padding_mask(embeds, seq_lens)
			
 
				+
			
 
				+    // TODO: scale when saving the model weights
			
 
				+    // embeds = ggml_scale embeds * self.scale
			
 
				+
			
 
				+    if (has_layer(model, prefix + ".pos_encoder")) {
			
 
				+        // This only work with the simple pos encoders
			
 
				+        int encoding_dim = embeds->ne[0];
			
 
				+        int seq_len = embeds->ne[1];
			
 
				+       ggml_tensor* pos_embeds = ggml_view_2d(ctx, model.tensors[prefix + ".pos_encoder"], encoding_dim, seq_len, 0, 0);
			
 
				+        embeds = ggml_add(ctx, embeds, pos_embeds);
			
 
				+    }
			
 
				+
			
 
				+    if (has_layer(model, prefix + ".layer_norm")) {
			
 
				+        embeds = LayerNorm_forward(model, prefix + ".layer_norm", embeds);
			
 
				+    }
			
 
				+
			
 
				+    // padding mask ?
			
 
				+    return embeds;
			
 
				+}
			
 
				 
			
 
				 extern "C" ggml_tensor* StandardTransformerEncoder_forward(
			
 
				     fairseq2_model& model,
			
@@ -389,13 +458,13 @@ extern "C" ggml_tensor* StandardTransformerDecoder_forward(
 
				 using IncrementalStateBag = std::unordered_map<ggml_tensor*, ggml_tensor*>*;
			
 
				 
			
 
				 
			
 
				-int _determine_max_seq_len(const SequenceGeneratorJob& job) {
			
 
				+int _determine_max_seq_len(const SequenceGeneratorJob& job, int source_seq_len) {
			
 
				     auto opts = job.opts;
			
 
				     int max_seq_len = -1;
			
 
				-    if (job.source_seq_len <= 0 || opts.soft_max_seq_len_a <= 0) {
			
 
				+    if (source_seq_len <= 0 || opts.soft_max_seq_len_a <= 0) {
			
 
				         max_seq_len = opts.hard_max_seq_len;
			
 
				     } else {
			
 
				-        max_seq_len = std::min(opts.hard_max_seq_len, int(opts.soft_max_seq_len_a * job.source_seq_len + opts.soft_max_seq_len_b));
			
 
				+        max_seq_len = std::min(opts.hard_max_seq_len, int(opts.soft_max_seq_len_a * source_seq_len + opts.soft_max_seq_len_b));
			
 
				     }
			
 
				 
			
 
				     if (opts.min_seq_len > max_seq_len) {
			
@@ -432,11 +501,12 @@ void _fan_out_encoder_output(
 
				 
			
 
				     // (B, S_enc, M)
			
 
				     ggml_tensor* shape = ggml_new_tensor_3d(ctx, GGML_TYPE_I8, encoder_output->ne[0], encoder_output->ne[1], beam_size);
			
 
				-
			
 
				     // (S_enc, M) -> (B, S_enc, M)
			
 
				     *encoder_output_out = ggml_repeat(ctx, encoder_output, shape);
			
 
				+    // (S_enc) -> (B, S_enc)
			
 
				+    ggml_tensor* shape_mask = ggml_new_tensor_2d(ctx, GGML_TYPE_I8, encoder_padding_mask->ne[0], beam_size);
			
 
				     if (encoder_padding_mask != nullptr) {
			
 
				-        *encoder_padding_mask_out = ggml_repeat(ctx, encoder_padding_mask, shape);
			
 
				+        *encoder_padding_mask_out = ggml_repeat(ctx, encoder_padding_mask, shape_mask);
			
 
				     }
			
 
				 }
			
 
				 
			
@@ -464,7 +534,7 @@ void _bootstrap_seqs_and_scores(
 
				     ggml_context* ctx = model.ctx;
			
 
				 
			
 
				     // seqs[:, : prefix_seq_len] = job.prefix_seq;
			
 
				-    ggml_cpy(ctx, job.prefix_seq, ggml_view_2d(ctx, seqs, 0, prefix_seq_len, 0, 0));
			
 
				+    ggml_cpy(ctx, job.prefix_seq, ggml_view_2d(ctx, seqs, 0, prefix_seq_len, seqs->nb[1], 0));
			
 
				 
			
 
				     // We have to bootstrap the model with the already fanned-out encoder
			
 
				     // output to correctly initialize its incremental state. This causes some
			
@@ -477,7 +547,7 @@ void _bootstrap_seqs_and_scores(
 
				     // Bootstrap the model state with prefix sequence.
			
 
				     ggml_tensor* decoder_output = StandardTransformerDecoder_forward(
			
 
				         model,
			
 
				-        ".decoder",
			
 
				+        "text_decoder",
			
 
				         seqs,
			
 
				         /*padding_mask*/ nullptr,
			
 
				         encoder_output,
			
@@ -487,7 +557,7 @@ void _bootstrap_seqs_and_scores(
 
				     // TODO state_bag.increment_step(prefix_seq_len - 1)
			
 
				 
			
 
				     // logits, lprobs: (N, S_pfx - 1, V)
			
 
				-    ggml_tensor* logits = Linear_forward(model, ".decoder.final_proj", decoder_output);
			
 
				+    ggml_tensor* logits = Linear_forward(model, "final_proj", decoder_output);
			
 
				     ggml_tensor* lprobs = ggml_log_softmax(ctx, ggml_view_3d(ctx, logits, logits->ne[0], logits->ne[1], 1, 0, 0, 0));
			
 
				     int vocab_size = logits->ne[0];
			
 
				 
			
@@ -622,23 +692,29 @@ bool _finalize_hypothesis(
 
				 }
			
 
				 
			
 
				 /// Generates a translation for a single sequence
			
 
				+// TODO: finish this for beam_size=1
			
 
				+// * implement the lprobs tweaking
			
 
				+// TODO: add IncrementalStateBag support to avoid a O(N^3) generation.
			
 
				+// TODO: support beam_size > 1:
			
 
				+// * most layers assume un-batched input, but we want to handle several beams at once
			
 
				+// * need to port "reorder_state_dict"
			
 
				+// * once beam are selected with topk, we need to update seqs and scores tensors
			
 
				 extern "C" float generate_sequence(
			
 
				     fairseq2_model& model,
			
 
				     const SequenceGeneratorJob& job,
			
 
				     ggml_tensor* encoder_output,
			
 
				     ggml_tensor* encoder_padding_mask,
			
 
				-    ggml_tensor** output_seq
			
 
				+    ggml_tensor* output_seq
			
 
				 ) {
			
 
				-    int input_seq_len = encoder_output->ne[1];
			
 
				     int vocab_size = encoder_output->ne[0];
			
 
				     int beam_size = job.opts.beam_size;
			
 
				-    int max_seq_len = _determine_max_seq_len(job);
			
 
				+    int source_seq_len = encoder_output->ne[1];
			
 
				+    int max_seq_len = _determine_max_seq_len(job, source_seq_len);
			
 
				     ggml_context* ctx = model.ctx;
			
 
				 
			
 
				     // (S_enc, M) -> (B, S_enc, M)
			
 
				     _fan_out_encoder_output(ctx, &encoder_output, &encoder_padding_mask, beam_size);
			
 
				 
			
 
				-    std::vector<Hypothesis> active_searches(beam_size);
			
 
				     std::vector<Hypothesis> finished_searches(beam_size);
			
 
				 
			
 
				     // Initialize buffers. (B, S)
			
@@ -688,9 +764,10 @@ extern "C" float generate_sequence(
 
				         //     // state_bag.reorder(beam_indices)
			
 
				         // }
			
 
				 
			
 
				+        seqs = TransformerEmbeddingFrontend_forward(model, "text_decoder_frontend", seqs);
			
 
				         ggml_tensor* decoder_output = StandardTransformerDecoder_forward(
			
 
				             model,
			
 
				-            ".decoder",
			
 
				+            "text_decoder",
			
 
				             // seqs[:, step_nr : step_nr + 1]
			
 
				             ggml_view_2d(ctx, seqs, 1, beam_size, step_nr * seqs->nb[0], 0),
			
 
				             nullptr,  // We never generate PAD.
			
@@ -701,7 +778,7 @@ extern "C" float generate_sequence(
 
				 
			
 
				         // state_bag.increment_step()
			
 
				 
			
 
				-        ggml_tensor* logits = Linear_forward(model, ".decoder.final_proj", decoder_output);
			
 
				+        ggml_tensor* logits = Linear_forward(model, "final_proj", decoder_output);
			
 
				         ggml_tensor* lprobs = ggml_log_softmax(ctx, logits);
			
 
				 
			
 
				         // // Do not allow EOS before reaching the minimum sequence length.
			
--- a/ggml/examples/unity/fairseq2.h
+++ b/ggml/examples/unity/fairseq2.h
@@ -55,6 +55,12 @@ extern "C" ggml_tensor* MultiheadAttention_forward(
 
				     ggml_tensor* _ // (klen, slen)  TODO: do we need to pass mask here ?
			
 
				 );
			
 
				 
			
 
				+extern "C" ggml_tensor* TransformerEmbeddingFrontend_forward(
			
 
				+    fairseq2_model& model,
			
 
				+    const std::string& prefix,
			
 
				+    ggml_tensor* seqs
			
 
				+);
			
 
				+
			
 
				 extern "C" ggml_tensor* StandardTransformerEncoderLayer_forward(
			
 
				     fairseq2_model& model,
			
 
				     const std::string& prefix,
			
@@ -105,7 +111,6 @@ struct SequenceGeneratorOptions {
 
				 struct SequenceGeneratorJob {
			
 
				     SequenceGeneratorOptions opts;
			
 
				     ggml_tensor* prefix_seq;
			
 
				-    int source_seq_len;
			
 
				     std::int32_t eos_idx;
			
 
				 };
			
 
				 
			
@@ -115,5 +120,5 @@ extern "C" float generate_sequence(
 
				     const SequenceGeneratorJob& opts,
			
 
				     ggml_tensor* encoder_output,
			
 
				     ggml_tensor* encoder_padding_mask,
			
 
				-    ggml_tensor** output_seq
			
 
				+    ggml_tensor* output_seq
			
 
				 );
			
--- a/ggml/ggml.py
+++ b/ggml/ggml.py
@@ -16,6 +16,7 @@ from typing import Union
 
				 from typing import Type
			
 
				 
			
 
				 from third_party_ggml import *
			
 
				+from ctypes_utils import c_struct, c_fn, Ptr
			
 
				 
			
 
				 ### Helpers
			
 
				 
			
@@ -29,12 +30,17 @@ def numpy_dtype(ggml_type: ctypes.c_int) -> type:
 
				         # GGML_TYPE_F16  = 1,
			
 
				         return np.float16
			
 
				 
			
 
				+    if ggml_type == 18:
			
 
				+        return np.int32
			
 
				+
			
 
				     raise NotImplementedError(f"Can't convert GGML_TYPE({ggml_type}) to a numpy.dtype")
			
 
				 
			
 
				 
			
 
				 def from_numpy_dtype(dtype: np.dtype) -> ctypes.c_int:
			
 
				     if dtype == np.float32:
			
 
				         return ctypes.c_int(0)
			
 
				+    elif dtype == np.int32:
			
 
				+        return ctypes.c_int(18)
			
 
				     elif dtype == np.float16:
			
 
				         return ctypes.c_int(1)
			
 
				     raise NotImplementedError(f"Can't convert {dtype} to a GGML_TYPE")
			
@@ -288,8 +294,39 @@ def forward(
 
				     with CppStr(prefix) as std_prefix:
			
 
				         return fwd(model, std_prefix, *inputs)  # ignore: type[no-any-return]
			
 
				 
			
 
				-lib.causal_attention_mask.argtypes = [ggml_context_p, ctypes.POINTER(ggml_tensor)]
			
 
				-lib.causal_attention_mask.restype = ctypes.POINTER(ggml_tensor)
			
 
				 
			
 
				-def causal_attention_mask(ctx: ggml_context_p, seqs: ggml_tensor_p) -> ggml_tensor_p:
			
 
				+@c_fn(lib)
			
 
				+def causal_attention_mask(
			
 
				+    ctx: ggml_context_p, seqs: Ptr[ggml_tensor]
			
 
				+) -> Ptr[ggml_tensor]:
			
 
				     return lib.causal_attention_mask(ctx, seqs)  # type: ignore[no-any-return]
			
 
				+
			
 
				+
			
 
				+@c_struct
			
 
				+class SequenceGeneratorOptions:
			
 
				+    beam_size: int
			
 
				+    min_seq_len: int
			
 
				+    soft_max_seq_len_a: int
			
 
				+    soft_max_seq_len_b: int
			
 
				+    hard_max_seq_len: int
			
 
				+    len_penalty: float
			
 
				+    unk_penalty: float
			
 
				+    normalize_scores: bool
			
 
				+
			
 
				+
			
 
				+@c_struct
			
 
				+class SequenceGeneratorJob:
			
 
				+    opts: SequenceGeneratorOptions
			
 
				+    prefix_seq: Ptr[ggml_tensor]
			
 
				+    eos_idx: int
			
 
				+
			
 
				+
			
 
				+@c_fn(lib)
			
 
				+def generate_sequence(
			
 
				+    model: ctypes.c_void_p,
			
 
				+    job: Ptr[SequenceGeneratorJob],
			
 
				+    encoder_output: Ptr[ggml_tensor],
			
 
				+    encoder_padding_mask: Ptr[ggml_tensor],
			
 
				+    output_seq: Ptr[ggml_tensor],
			
 
				+) -> float:
			
 
				+    ...
			
--- a/ggml/ggml_convert.py
+++ b/ggml/ggml_convert.py
@@ -11,10 +11,12 @@ from enum import Enum
 
				 from io import BufferedWriter
			
 
				 from pathlib import Path
			
 
				 from typing import Any, Callable, Dict, Optional, Tuple, Union
			
 
				-
			
 
				 import torch
			
 
				 import ggml
			
 
				+from typing import List
			
 
				 from fairseq2.assets import AssetCard
			
 
				+from fairseq2.models.transformer.frontend import TransformerEmbeddingFrontend
			
 
				+from fairseq2.nn import SinusoidalPositionEncoder
			
 
				 from seamless_communication.models.unity import load_unity_config, load_unity_model
			
 
				 
			
 
				 Preprocessor = Callable[[Any], Any]
			
@@ -33,13 +35,59 @@ def convert_model(model_name: str, out: Optional[Path] = None) -> None:
 
				     else:
			
 
				         raise ValueError(f"Unsupported model type: {model_name}")
			
 
				 
			
 
				+    state_dict = model.state_dict()
			
 
				+    fixup_model(model, state_dict)
			
 
				+
			
 
				     with out.open("wb") as o:
			
 
				-        write_ggml_file(o, hparams, model.state_dict())
			
 
				+        write_ggml_file(o, hparams, state_dict)
			
 
				 
			
 
				     with out.with_suffix(".hparams.h").open("w") as h:
			
 
				         h.write(generate_hparams_struct(hparams, "unity_hparams"))
			
 
				 
			
 
				 
			
 
				+def _nested_getattr(model: Any, name: str) -> Any:
			
 
				+    parts = name.split(".")
			
 
				+    node = model
			
 
				+    for part in parts:
			
 
				+        node = getattr(node, part)
			
 
				+        if node is None:
			
 
				+            return None
			
 
				+    return node
			
 
				+
			
 
				+
			
 
				+def find_children(model: torch.nn.Module, t: type) -> List[Tuple[str, torch.nn.Module]]:
			
 
				+    queue = list(model._modules.items())
			
 
				+    modules = []
			
 
				+    while queue:
			
 
				+        name, node = queue.pop()
			
 
				+        if node is None:
			
 
				+            continue
			
 
				+        if isinstance(node, t):
			
 
				+            modules.append((name, node))
			
 
				+        for child_name, child_node in node._modules.items():
			
 
				+            queue.append((".".join((name, child_name)), child_node))
			
 
				+
			
 
				+    return modules
			
 
				+
			
 
				+
			
 
				+def fixup_model(model: torch.nn.Module, state_dict: Dict[str, torch.Tensor]) -> None:
			
 
				+    # Bake the embedding scaling into the weights
			
 
				+    frontends = find_children(model, TransformerEmbeddingFrontend)
			
 
				+    print("Upgrading the following TransformerEmbeddingFrontend:", [x[0] for x in frontends])
			
 
				+    for name, frontend in frontends:
			
 
				+        embed_weights = state_dict[name + ".embed.weight"]
			
 
				+        state_dict[name + ".embed.weight"] = embed_weights * frontend.scale
			
 
				+
			
 
				+    # Sinusoidal embeddings are typically not saved since they are easily recomputed,
			
 
				+    # but this allows to avoid porting the sinusoidal logic to GGML
			
 
				+    pos_encoders = find_children(model, SinusoidalPositionEncoder)
			
 
				+    print("Upgrading the following SinusoidalPositionEncoder:", [x[0] for x in pos_encoders])
			
 
				+    for name, pos_encoder in pos_encoders:
			
 
				+        assert isinstance(pos_encoder.weight, torch.Tensor)
			
 
				+        assert name not in state_dict
			
 
				+        state_dict[name] = pos_encoder.weight
			
 
				+
			
 
				+
			
 
				 def write_ggml_file(
			
 
				     out: BufferedWriter, hparams: Dict[str, Any], state_dict: Dict[str, torch.Tensor]
			
 
				 ) -> None:
			
@@ -52,7 +100,9 @@ def write_ggml_file(
 
				         # + tensor overhead
			
 
				         byte_size += ggml.ggml_tensor_overhead() * (len(state_dict) + 10)
			
 
				         hparams["model_byte_size"] = byte_size
			
 
				-        logging.warning(f"Saving a ggml file with {len(state_dict)} tensors, for an estimated amount of {byte_size / (1024**3)} GGML Gb")
			
 
				+        logging.warning(
			
 
				+            f"Saving a ggml file with {len(state_dict)} tensors, for an estimated amount of {byte_size / (1024**3)} GGML Gb"
			
 
				+        )
			
 
				     # 6877961321223123048
			
 
				     hparams["__end_of_hparams__"] = struct.unpack("l", b"hparams_")[0]
			
 
				 
			
@@ -140,6 +190,7 @@ def write_tensor(out: BufferedWriter, value: torch.Tensor) -> None:
 
				 
			
 
				     data.tofile(out)
			
 
				 
			
 
				+
			
 
				 def torch_to_ggml_type(dtype: type) -> int:
			
 
				     if dtype is torch.float32:
			
 
				         return ggml.GGML_TYPE_F32
			
--- a/ggml/test_unity_cpp.py
+++ b/ggml/test_unity_cpp.py
@@ -6,13 +6,17 @@ import numpy as np
 
				 import torch
			
 
				 import fairseq2.nn
			
 
				 import fairseq2.nn.transformer
			
 
				+import logging
			
 
				+import sys
			
 
				+from pathlib import Path
			
 
				+from ctypes_utils import Ptr
			
 
				 from ctypes import c_void_p
			
 
				 from typing import Any
			
 
				 from pathlib import Path
			
 
				 from typing import Iterator
			
 
				 from ggml import NativeObj
			
 
				 from ggml_convert import convert_model
			
 
				-from seamless_communication.models.unity import load_unity_model
			
 
				+from seamless_communication.models.inference.translator import Translator, Modality
			
 
				 
			
 
				 Ctx = ggml.ggml_context_p
			
 
				 
			
@@ -276,12 +280,19 @@ def g_model(ctx: Ctx, g_model_once: c_void_p) -> c_void_p:
 
				 
			
 
				 
			
 
				 @pytest.fixture(scope="module")
			
 
				-def pt_model() -> Iterator[Any]:
			
 
				-    model = load_unity_model("seamlessM4T_medium")
			
 
				-    print(model)
			
 
				-    model.eval()
			
 
				+def translator() -> Iterator[Any]:
			
 
				+    tr = Translator(
			
 
				+        "seamlessM4T_medium", "vocoder_36langs", torch.device("cpu"), torch.float32
			
 
				+    )
			
 
				     with torch.inference_mode():
			
 
				-        yield model
			
 
				+        yield tr
			
 
				+
			
 
				+
			
 
				+@pytest.fixture(scope="module")
			
 
				+def pt_model(translator: Translator) -> Any:
			
 
				+    model = translator.model
			
 
				+    print(model)
			
 
				+    return model
			
 
				 
			
 
				 
			
 
				 @pytest.mark.xfail(reason="TODO")
			
@@ -551,6 +562,46 @@ def test_causal_attention_mask(ctx: Ctx):
 
				     assert np.allclose(mask, mask_exp)
			
 
				 
			
 
				 
			
 
				+def test_PositionalEmbedding_forward(ctx: Ctx, g_model: c_void_p) -> None:
			
 
				+    seq = torch.zeros((4, 20, 1024), dtype=torch.float32)
			
 
				+    # this _legacy_pad_idx is suspicious. Shouldn't the model use 1 ? But
			
 
				+    # this is consistent with pt_model.text_decoder_frontend.pos_encoder._sin_offset
			
 
				+    pos_encoder = fairseq2.nn.SinusoidalPositionEncoder(1024, 55, _legacy_pad_idx=0)
			
 
				+    y_exp = pos_encoder(seq, None)[0].numpy()
			
 
				+
			
 
				+    gseq = ggml.from_numpy(ctx, seq[0].numpy())
			
 
				+    ggml.ggml_set_name(gseq, b"seq")
			
 
				+    gy = ggml.forward(
			
 
				+        "PositionalEmbedding", g_model, "text_decoder_frontend.pos_encoder", gseq
			
 
				+    )
			
 
				+    gf = ggml.ggml_build_forward(gy)
			
 
				+    ggml.ggml_graph_compute_with_ctx(ctx, ctypes.pointer(gf), 1)
			
 
				+    y = ggml.to_numpy(gy)
			
 
				+
			
 
				+    assert y.shape == y_exp.shape
			
 
				+    assert np.allclose(y_exp, y, atol=1e-6)
			
 
				+
			
 
				+
			
 
				+def test_TransformerEmbeddingFrontend_forward(
			
 
				+    ctx: Ctx, g_model: c_void_p, pt_model: Any
			
 
				+) -> None:
			
 
				+    seq = torch.arange(20).reshape(1, 20)
			
 
				+    seq_len = torch.tensor([20])
			
 
				+    gseq = ggml.from_numpy(ctx, seq[0].numpy().astype(np.int32))
			
 
				+    ggml.ggml_set_name(gseq, b"seq")
			
 
				+    gy = ggml.forward(
			
 
				+        "TransformerEmbeddingFrontend", g_model, "text_decoder_frontend", gseq
			
 
				+    )
			
 
				+    gf = ggml.ggml_build_forward(gy)
			
 
				+    ggml.ggml_graph_compute_with_ctx(ctx, ctypes.pointer(gf), 1)
			
 
				+    y = ggml.to_numpy(gy)
			
 
				+
			
 
				+    y_exp, _ = pt_model.text_decoder_frontend(seq, seq_len)
			
 
				+    y_exp = y_exp.squeeze(0).numpy()  # remove batch dimension
			
 
				+
			
 
				+    assert y.shape == y_exp.shape
			
 
				+    assert np.allclose(y_exp, y, atol=1e-6)
			
 
				+
			
 
				 
			
 
				 def test_StandardTransformerDecoder_forward(
			
 
				     ctx: Ctx, g_model: c_void_p, pt_model: Any
			
@@ -577,7 +628,6 @@ def test_StandardTransformerDecoder_forward(
 
				     )
			
 
				     gf = ggml.ggml_build_forward(gy)
			
 
				     ggml.ggml_graph_compute_with_ctx(ctx, ctypes.pointer(gf), 1)
			
 
				-
			
 
				     y = ggml.to_numpy(gy)
			
 
				 
			
 
				     y_exp, _ = pt_model.text_decoder(x, padding_mask, encoder_out, None)
			
@@ -585,3 +635,99 @@ def test_StandardTransformerDecoder_forward(
 
				 
			
 
				     assert y.shape == y_exp.shape
			
 
				     assert np.allclose(y_exp, y, atol=1e-4)
			
 
				+
			
 
				+
			
 
				+def test_t2tt(ctx: Ctx, g_model: c_void_p):
			
 
				+    # device = translator.device
			
 
				+    src_lang = "eng"
			
 
				+    src_text = "We are all in a yellow submarine."
			
 
				+    tgt_lang = "fra"
			
 
				+    # token_encoder = translator.text_tokenizer.create_encoder(
			
 
				+    #     task="translation", lang=src_lang, mode="source", device=device
			
 
				+    # )
			
 
				+    # src = translator.collate(token_encoder(src_text))
			
 
				+
			
 
				+    # text_out, _ = translator.get_prediction(
			
 
				+    #     translator.model,
			
 
				+    #     translator.text_tokenizer,
			
 
				+    #     translator.unit_tokenizer,
			
 
				+    #     src,
			
 
				+    #     input_modality=Modality.TEXT,
			
 
				+    #     output_modality=Modality.TEXT,
			
 
				+    #     tgt_lang=tgt_lang,
			
 
				+    # )
			
 
				+
			
 
				+    # tgt_text = str(text_out.sentences[0])
			
 
				+    # assert tgt_text == "Nous sommes tous dans un sous-marin jaune."
			
 
				+    # tgt_tokens = text_out.generator_output.results[0][0].seq
			
 
				+    # score = text_out.generator_output.results[0][0].score.item()
			
 
				+    # np.savez(
			
 
				+    #     Path(__file__).parent / "sample_input.npz",
			
 
				+    #     score=score,
			
 
				+    #     encoder_output=text_out.encoder_output.squeeze(0).numpy(),
			
 
				+    #     encoder_padding_mask=text_out.encoder_padding_mask.squeeze(0).numpy(),
			
 
				+    #     tgt_tokens=tgt_tokens.numpy(),
			
 
				+    # )
			
 
				+
			
 
				+    text_out = np.load(Path(__file__).parent / "sample_input.npz")
			
 
				+    score = text_out["score"].item()
			
 
				+
			
 
				+    tgt_tokens = ggml.from_numpy(ctx, text_out["tgt_tokens"].astype(np.int32))
			
 
				+    encoder_out = ggml.from_numpy(ctx, text_out["encoder_output"])
			
 
				+    encoder_padding_mask = ggml.from_numpy(ctx, text_out["encoder_padding_mask"])
			
 
				+
			
 
				+    job = ggml.SequenceGeneratorJob()
			
 
				+    job.opts.beam_size = 1
			
 
				+    job.opts.min_seq_len = 1
			
 
				+    job.opts.soft_max_seq_len_a = 1
			
 
				+    job.opts.soft_max_seq_len_b = 200
			
 
				+    job.opts.hard_max_seq_len = 1024
			
 
				+    job.opts.len_penalty = 1.0
			
 
				+    job.opts.unk_penalty = 0.0
			
 
				+    job.prefix_seq = ggml.from_numpy(ctx, text_out["tgt_tokens"].astype(np.int32)[:1])
			
 
				+    job.eos_idx = 3
			
 
				+
			
 
				+    result = ctypes.byref(ggml.ggml_tensor())
			
 
				+    g_score = ggml.generate_sequence(
			
 
				+        g_model, job, encoder_out, encoder_padding_mask, result
			
 
				+    )
			
 
				+    breakpoint()
			
 
				+    assert g_score == pytest.approx(score)
			
 
				+
			
 
				+
			
 
				+def test_in_loop(ctx: Ctx, g_model: c_void_p, pt_model: Any):
			
 
				+    resources = locals()
			
 
				+
			
 
				+    import importlib
			
 
				+    import time
			
 
				+
			
 
				+    testcase = test_TransformerEmbeddingFrontend_forward.__name__
			
 
				+    name, script = __name__, __file__
			
 
				+    root = Path(__file__).parent
			
 
				+    watched_files = [Path(__file__), root / "ggml.py", root / "build/src/libggml.so"]
			
 
				+    last_try = 0.0
			
 
				+
			
 
				+    while True:
			
 
				+        last_save = max(f.stat().st_mtime for f in watched_files)
			
 
				+        if last_save <= last_try:
			
 
				+            time.sleep(0.1)
			
 
				+            continue
			
 
				+
			
 
				+        last_try = last_save
			
 
				+        spec = importlib.util.spec_from_file_location(name, script)
			
 
				+        module = importlib.util.module_from_spec(spec)
			
 
				+        spec.loader.exec_module(module)
			
 
				+        sys.modules[name] = module
			
 
				+        f = getattr(module, testcase)
			
 
				+        f_args = [k for k in f.__annotations__ if k != "return"]
			
 
				+        try:
			
 
				+            f(**{k: resources[k] for k in f_args})
			
 
				+            print(f"Testcase {testcase} success")
			
 
				+        except AssertionError as e:
			
 
				+            print(f"Testcase {testcase} failed: {e}")
			
 
				+
			
 
				+        except Exception as e:
			
 
				+            import pdb
			
 
				+
			
 
				+            logging.exception(f"Testcase {testcase} crashed !")
			
 
				+            pdb.post_mortem()