1 rok pred · a768cdf55f
--- a/.gitignore
+++ b/.gitignore
@@ -146,4 +146,4 @@ seamless_communication
 
				 # ignore src/seamless_communication  
			
 
				 !*/seamless_communication
			
 
				 m4t_scripts
			
 
				-/ggml/sample_input.npz
			
 
				+/ggml/test_data/
			
--- a/.gitmodules
+++ b/.gitmodules
@@ -0,0 +1,3 @@
 
				+[submodule "ggml/tracy"]
			
 
				+	path = ggml/tracy
			
 
				+	url = git@github.com:wolfpld/tracy.git
			
--- a/ggml/CMakeLists.txt
+++ b/ggml/CMakeLists.txt
@@ -160,6 +160,10 @@ target_include_directories(kaldi-native-fbank PUBLIC
 
				   ${CMAKE_CURRENT_SOURCE_DIR}/examples/kaldi-native-fbank/csrc
			
 
				 )
			
 
				 
			
 
				+option( TRACY_ENABLE "" ON)
			
 
				+option( TRACY_ON_DEMAND "" ON)
			
 
				+add_subdirectory (tracy)
			
 
				+
			
 
				 if (NOT CMAKE_BUILD_TYPE AND NOT CMAKE_CONFIGURATION_TYPES)
			
 
				     set(CMAKE_BUILD_TYPE Release CACHE STRING "Build type" FORCE)
			
 
				     set_property(CACHE CMAKE_BUILD_TYPE PROPERTY STRINGS "Debug" "Release" "RelWithDebInfo")
			
--- a/ggml/LJ037-0171_sr16k_test.wav
+++ b/ggml/LJ037-0171_sr16k_test.wav
--- a/ggml/Makefile
+++ b/ggml/Makefile
@@ -1,10 +1,47 @@
 
				-build: build/src/libggml.so
			
 
				+build: build/src/libggml.so ggml/build/bin/unity
			
 
				 
			
 
				-build/src/libggml.so: examples/unity/*.h examples/unity/*.cpp
			
 
				+build/src/libggml.so: Makefile examples/unity/*.h examples/unity/*.cpp src/ggml*.c
			
 
				 	mkdir -p build
			
 
				-	cd build; cmake -DBUILD_SHARED_LIBS=On -DCMAKE_BUILD_TYPE=Debug ..
			
 
				+	cd build; cmake\
			
 
				+		-DGGML_OPENBLAS=ON \
			
 
				+	  -DBUILD_SHARED_LIBS=On \
			
 
				+	  -DCMAKE_BUILD_TYPE=Release \
			
 
				+	  -DCMAKE_CXX_FLAGS="-g2 -fno-omit-frame-pointer" \
			
 
				+	  -DTRACY_ENABLE=ON \
			
 
				+	  ..
			
 
				 	cd build; make -j4 fairseq2_cpp
			
 
				 	find build/ -iname '*.so'
			
 
				 
			
 
				+
			
 
				+ggml/build/bin/unity: Makefile examples/unity/*.h examples/unity/*.cpp src/ggml*.c
			
 
				+	mkdir -p build
			
 
				+	cd build; cmake\
			
 
				+		-DGGML_OPENBLAS=ON \
			
 
				+	  -DBUILD_SHARED_LIBS=On \
			
 
				+	  -DCMAKE_BUILD_TYPE=Release \
			
 
				+	  -DCMAKE_CXX_FLAGS="-g2 -fno-omit-frame-pointer" \
			
 
				+	  -DTRACY_ENABLE=ON \
			
 
				+	  ..
			
 
				+	cd build; make -j4 unity
			
 
				+	find build/ -iname '*.so'
			
 
				+
			
 
				+
			
 
				 tests: build/src/libggml.so
			
 
				 	pytest ./*.py -s
			
 
				+
			
 
				+build/src/libggml_cuda.so: Makefile examples/unity/*.h examples/unity/*.cpp
			
 
				+	mkdir -p build
			
 
				+	cd build; cmake\
			
 
				+	  -DGGML_CUBLAS=ON \
			
 
				+	  -DBUILD_SHARED_LIBS=On \
			
 
				+	  -DCMAKE_BUILD_TYPE=Release \
			
 
				+	  -DCMAKE_CXX_FLAGS="-g2" \
			
 
				+	  ..
			
 
				+	cd build; make -j4 ggml
			
 
				+	mv build/src/libggml.so build/src/libggml_cuda.so
			
 
				+	find build/ -iname '*.so'
			
 
				+
			
 
				+cuda_tests: build/src/libggml_cuda.so
			
 
				+	sed -i 's/lib_base_name = "ggml"/lib_base_name = "ggml_cuda"/' third_party_ggml.py
			
 
				+	pytest ./*.py -s
			
 
				+	sed -i 's/lib_base_name = "ggml_cuda"/lib_base_name = "ggml"/' third_party_ggml.py
			
--- a/ggml/ctypes_utils.py
+++ b/ggml/ctypes_utils.py
@@ -55,8 +55,10 @@ def _py_type_to_ctype(t: type) -> type:
 
				         return ctypes.c_float
			
 
				     if t is bool:
			
 
				         return ctypes.c_bool
			
 
				-    if t is str:
			
 
				+    if t is bytes:
			
 
				         return ctypes.c_char_p
			
 
				+    if t is str:
			
 
				+        raise ValueError("str type is't supported by ctypes ?")
			
 
				 
			
 
				     if getattr(t, "__origin__", None) is Ptr:
			
 
				         pointee = _py_type_to_ctype(t.__args__[0])  # type: ignore
			
--- a/ggml/examples/common.h
+++ b/ggml/examples/common.h
@@ -37,10 +37,16 @@ struct gpt_params {
 
				     int32_t n_gpu_layers     = 0;
			
 
				 };
			
 
				 
			
 
				+bool unity_params_parse(int argc, char ** argv, unity_params & params);
			
 
				+
			
 
				 bool gpt_params_parse(int argc, char ** argv, gpt_params & params);
			
 
				 
			
 
				+void unity_print_usage(int /*argc*/, char ** argv, const unity_params & params);
			
 
				+
			
 
				 void gpt_print_usage(int argc, char ** argv, const gpt_params & params);
			
 
				 
			
 
				+
			
 
				+
			
 
				 std::string gpt_random_prompt(std::mt19937 & rng);
			
 
				 
			
 
				 //
			
--- a/ggml/examples/unity/CMakeLists.txt
+++ b/ggml/examples/unity/CMakeLists.txt
@@ -1,5 +1,4 @@
 
				-# fairseq2_cpp
			
 
				-
			
 
				+# unity
			
 
				 add_library(fairseq2_cpp)
			
 
				 target_include_directories(fairseq2_cpp PRIVATE ${CMAKE_CURRENT_SOURCE_DIR}/../../..)
			
 
				 target_link_libraries(fairseq2_cpp PRIVATE ggml kaldi-native-fbank)
			
@@ -8,3 +7,13 @@ target_sources(fairseq2_cpp
 
				         fairseq2.cpp
			
 
				         model_loader.cpp
			
 
				 )
			
 
				+add_executable(unity unity.cpp)
			
 
				+find_package(PkgConfig REQUIRED)
			
 
				+pkg_check_modules(SNDFILE REQUIRED sndfile)
			
 
				+target_include_directories(unity PRIVATE ${CMAKE_CURRENT_SOURCE_DIR}/../../.. ${SNDFILE_INCLUDE_DIRS})
			
 
				+target_link_libraries(unity PRIVATE ggml ${SNDFILE_LIBRARIES})
			
 
				+target_sources(unity
			
 
				+    PRIVATE
			
 
				+        fairseq2.cpp
			
 
				+        model_loader.cpp
			
 
				+)
			
--- a/ggml/examples/unity/fairseq2.cpp
+++ b/ggml/examples/unity/fairseq2.cpp
@@ -1,18 +1,41 @@
 
				+#include <algorithm>
			
 
				+#include <fnmatch.h>
			
 
				+#include <iostream>
			
 
				 #include <math.h>
			
 
				+#include <queue>
			
 
				+#include <unordered_map>
			
 
				+
			
 
				 #include "kaldi-native-fbank/csrc/feature-fbank.h"
			
 
				 #include "kaldi-native-fbank/csrc/feature-window.h"
			
 
				-#include "ggml.h"
			
 
				+#include "tracy/Tracy.hpp"
			
 
				+
			
 
				 #include "fairseq2.h"
			
 
				-#include <unordered_map>
			
 
				-#include <algorithm>
			
 
				-#include <iostream>
			
 
				-#include <fnmatch.h>
			
 
				+#include "ggml.h"
			
 
				 
			
 
				-void ggml_detach(ggml_tensor* a) {
			
 
				+ggml_tensor* ggml_detach(ggml_tensor* a) {
			
 
				     a->op = GGML_OP_NONE;
			
 
				     std::fill(a->src, a->src + GGML_MAX_SRC, nullptr);
			
 
				+    return a;
			
 
				 }
			
 
				 
			
 
				+#define DEBUG_MEM_USAGE 1
			
 
				+
			
 
				+void printf_mem_usage(ggml_context* ctx, std::string name) {
			
 
				+#if DEBUG_MEM_USAGE
			
 
				+    double mb = 1024.0 * 1024.0;
			
 
				+    printf(
			
 
				+        "ctx %s: memory used = %8.2f MB, memory reserved = %8.2f Mb\n",
			
 
				+        name.c_str(),
			
 
				+        ggml_used_mem(ctx) / mb,
			
 
				+        ggml_get_mem_size(ctx) / mb
			
 
				+    );
			
 
				+#endif
			
 
				+}
			
 
				+
			
 
				+#define SWAP(x, y) \
			
 
				+    auto tmp_ ## x = x; x = y; y = tmp_ ## x;
			
 
				+
			
 
				+
			
 
				 /// allocate the fairseq2 model and hyperparameters
			
 
				 extern "C" fairseq2_model* fairseq2_model_alloc() {
			
 
				     // pre-allocate some memory to write hyperparameters and tensors pointers
			
@@ -25,8 +48,8 @@ extern "C" void fairseq2_kv_cache_alloc(const fairseq2_model& model, int beam_si
 
				     // Note: we only allocate the cache for the decoder attention.
			
 
				     // For encoder attention since we compute it all at once,
			
 
				     // the allocation is delayed to the first forward pass, to not over allocate.
			
 
				-    auto attn_glob = "*decoder.*_attn.k_proj.weight";
			
 
				-    auto self_attn_glob = "*decoder.*self_attn.k_proj.weight";
			
 
				+    auto attn_glob = "text_decoder.*_attn.k_proj.weight";
			
 
				+    auto self_attn_glob = "text_decoder.*self_attn.k_proj.weight";
			
 
				     ggml_tensor* self_attn_mask = ggml_new_tensor_2d(model.ctx, GGML_TYPE_F32, max_seq_len, max_seq_len);
			
 
				     self_attn_mask = ggml_diag_mask_inf_inplace(model.ctx, self_attn_mask, 0);
			
 
				     ggml_format_name(self_attn_mask, "self_attn_mask[%d]", max_seq_len);
			
@@ -132,8 +155,7 @@ void _reorder_kv_cache(ggml_context* ctx, ggml_cgraph* gf, KeyValueTensor& kv, g
 
				 }
			
 
				 
			
 
				 
			
 
				-void reorder_kv_cache(const fairseq2_model& model, ggml_cgraph* gf, ggml_tensor* new_order) {
			
 
				-    ggml_context* ctx = model.ctx;
			
 
				+void reorder_kv_cache(const fairseq2_model& model, ggml_context* ctx, ggml_cgraph* gf, ggml_tensor* new_order) {
			
 
				     for (auto& named_kv : model.kv_cache) {
			
 
				         _reorder_kv_cache(ctx, gf, named_kv.second, new_order);
			
 
				     }
			
@@ -176,6 +198,20 @@ bool has_layer(fairseq2_model& model, const std::string& name) {
 
				     return model.tensors.find(name) != model.tensors.end();
			
 
				 }
			
 
				 
			
 
				+ggml_tensor* mul_mat(ggml_context* ctx, ggml_tensor* a, ggml_tensor* b) {
			
 
				+    if (b->ne[1] == 1 && b->ne[2] > 1 &&  a->n_dims == 2) {
			
 
				+        // `b` has shape (B, 1, D).
			
 
				+        // if `a` is (D_out, D), then we do one matmul for the full batch.
			
 
				+        b = ggml_flatten_1d(ctx, b, 1);
			
 
				+        return ggml_unflatten_1d(ctx, ggml_mul_mat(ctx, a, b), 1, 1);
			
 
				+    }
			
 
				+    // there is also the k * q matmul -> (D, 1, B) * (D, 1, B) -> (1, 1, B)
			
 
				+    // not sure what's the best way to compute this with BLAS
			
 
				+
			
 
				+    return ggml_mul_mat(ctx, a, b);  // (d_out)
			
 
				+}
			
 
				+
			
 
				+
			
 
				 extern "C" ggml_tensor* Linear_forward(
			
 
				     fairseq2_model& model,
			
 
				     const std::string &prefix,
			
@@ -184,8 +220,7 @@ extern "C" ggml_tensor* Linear_forward(
 
				     // Note: for now we assumed un-batched input
			
 
				     ggml_tensor* weight = model.tensors[prefix + ".weight"];  // (d_in, d_out)
			
 
				     GGML_ASSERT(weight != nullptr);
			
 
				-    ggml_tensor* out = ggml_mul_mat(model.ctx, weight, input);  // (d_out)
			
 
				-
			
 
				+    ggml_tensor* out = mul_mat(model.ctx, weight, input);  // (d_out)
			
 
				     ggml_tensor* bias = model.tensors[prefix + ".bias"];  // (d_out)
			
 
				     if (bias == nullptr) return out;
			
 
				 
			
@@ -358,12 +393,13 @@ extern "C" ggml_tensor* MultiheadAttention_forward(
 
				             KeyValueTensor& kv_cache = model.kv_cache[prefix];
			
 
				             if (kv_cache.step_nr == 0) {
			
 
				                 k = Linear_forward(model, prefix + ".k_proj", keys);
			
 
				-                ggml_format_name(k, "%s.k_cache", prefix.c_str());
			
 
				                 v = Linear_forward(model, prefix + ".v_proj", values);
			
 
				-                ggml_format_name(v, "%s.v_cache", prefix.c_str());
			
 
				                 // TODO: encoder_padding_mask
			
 
				-                kv_cache.full_k = k;
			
 
				-                kv_cache.full_v = v;
			
 
				+                // Note we are only storing a pointer to the buffer, not the full graph
			
 
				+                kv_cache.full_k = ggml_detach(ggml_dup_inplace(ctx, k));
			
 
				+                ggml_format_name(kv_cache.full_k, "%s.k_cache", prefix.c_str());
			
 
				+                kv_cache.full_v = ggml_detach(ggml_dup_inplace(ctx, v));
			
 
				+                ggml_format_name(kv_cache.full_v, "%s.v_cache", prefix.c_str());
			
 
				                 kv_cache.step_nr = keys->ne[1];
			
 
				             } else {
			
 
				                 k = kv_cache.full_k;
			
@@ -395,11 +431,11 @@ extern "C" ggml_tensor* MultiheadAttention_forward(
 
				     attn = ggml_permute(ctx, attn, 0, 2, 1, 3); // (B, S, H, H_dim)
			
 
				 #else
			
 
				     // (B * H, Sk, H_dim) x (B * H, S, H_dim) -> (B * H, S, Sk)
			
 
				-    ggml_tensor* qk = ggml_mul_mat(ctx, k, q);
			
 
				+    ggml_tensor* qk = mul_mat(ctx, k, q);
			
 
				     ggml_set_name(qk, "qk");
			
 
				     ggml_tensor* qk_scale = ggml_new_tensor_1d(ctx, qk->type, 1);
			
 
				     ggml_set_f32(qk_scale, 1.0f/sqrtf(float(head_dim)));
			
 
				-    qk = ggml_scale(ctx, qk, qk_scale);
			
 
				+    qk = ggml_scale_inplace(ctx, qk, qk_scale);
			
 
				     ggml_set_name(qk, "qk_scaled");
			
 
				 
			
 
				     // TODO: Should we replace this by ggml_diag_mask_inf ?
			
@@ -409,7 +445,7 @@ extern "C" ggml_tensor* MultiheadAttention_forward(
 
				     ggml_set_name(attn_weights, "attn_weights");
			
 
				 
			
 
				     // (B * H, S, Sk) x (B * H, H_dim, Sk) -> (B * H, H_dim, S)
			
 
				-    ggml_tensor* attn = ggml_mul_mat(ctx, attn_weights, v);
			
 
				+    ggml_tensor* attn = mul_mat(ctx, attn_weights, v);
			
 
				     ggml_set_name(attn, "attn");
			
 
				     attn = ggml_unflatten_1d(ctx, attn, 2, num_heads);  // (B, H, H_dim, S)
			
 
				     attn = ggml_permute(ctx, attn, 2, 0, 1, 3); // (B, S, H, H_dim)
			
@@ -452,7 +488,7 @@ extern "C" ggml_tensor* StandardTransformerEncoderLayer_forward(
 
				     if (has_layer(model, prefix + ".self_attn_norm"))
			
 
				         seqs = LayerNorm_forward(model, prefix + ".self_attn_norm", seqs);
			
 
				 
			
 
				-    seqs = ggml_add(ctx, seqs, residual);
			
 
				+    seqs = ggml_add_inplace(ctx, seqs, residual);
			
 
				 
			
 
				     if (norm_order == TRANSFORMER_NORM_ORDER_POST)
			
 
				         seqs =  LayerNorm_forward(model, prefix + ".self_attn_layer_norm", seqs);
			
@@ -468,7 +504,7 @@ extern "C" ggml_tensor* StandardTransformerEncoderLayer_forward(
 
				     // TODO: if self.residual_scale is not None:
			
 
				     // residual = self.residual_scale * residual
			
 
				 
			
 
				-    seqs = ggml_add(ctx, seqs, residual);
			
 
				+    seqs = ggml_add_inplace(ctx, seqs, residual);
			
 
				 
			
 
				     if (norm_order == TRANSFORMER_NORM_ORDER_POST)
			
 
				         seqs = LayerNorm_forward(model, prefix + ".ffn_layer_norm", seqs);
			
@@ -496,7 +532,7 @@ extern "C" ggml_tensor* WaveformToFbank_forward(
 
				 
			
 
				     std::vector<float_t> signal_frame{};
			
 
				     std::int32_t num_frames = knf::NumFrames(/*num_samples=*/waveform->ne[0], frame_opts);
			
 
				-    struct ggml_tensor * output = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, 80, num_frames);
			
 
				+    ggml_tensor* output = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, 80, num_frames);
			
 
				     knf::FbankComputer native_(opts);
			
 
				     knf::FeatureWindowFunction window_fn_(native_.GetFrameOptions());
			
 
				 
			
@@ -520,7 +556,7 @@ extern "C" ggml_tensor* WaveformToFbank_forward(
 
				     output = ggml_norm(ctx, output, 1e-5);
			
 
				     output = ggml_dup(ctx, ggml_transpose(ctx, output));
			
 
				     if (output->ne[1] % 2 == 1) {
			
 
				-        struct ggml_tensor * remove_last = ggml_new_tensor_1d(ctx, GGML_TYPE_I32, output->ne[1]-1);
			
 
				+        ggml_tensor* remove_last = ggml_new_tensor_1d(ctx, GGML_TYPE_I32, output->ne[1]-1);
			
 
				         for (int i = 0; i < output->ne[1]-1; ++i) {
			
 
				             ((int32_t *) remove_last->data)[i] = i;
			
 
				         }
			
@@ -541,9 +577,9 @@ extern "C" ggml_tensor* RelativePositionMHA_forward(
 
				     ggml_tensor* residual = seqs;
			
 
				     seqs = LayerNorm_forward(model, prefix + "_layer_norm", seqs);
			
 
				     // self_attn: qkv
			
 
				-    struct ggml_tensor * Qcur = Linear_forward(model, prefix + ".q_proj", seqs);
			
 
				-    struct ggml_tensor * Kcur = Linear_forward(model, prefix + ".k_proj", seqs);
			
 
				-    struct ggml_tensor * Vcur = Linear_forward(model, prefix + ".v_proj", seqs);
			
 
				+    ggml_tensor* Qcur = Linear_forward(model, prefix + ".q_proj", seqs);
			
 
				+    ggml_tensor* Kcur = Linear_forward(model, prefix + ".k_proj", seqs);
			
 
				+    ggml_tensor* Vcur = Linear_forward(model, prefix + ".v_proj", seqs);
			
 
				 
			
 
				     // self_attn: rel_pos SDPA
			
 
				     int32_t S = seqs->ne[1];
			
@@ -556,9 +592,7 @@ extern "C" ggml_tensor* RelativePositionMHA_forward(
 
				 
			
 
				     int num_indices = end_index - start_index;
			
 
				 
			
 
				-    struct ggml_tensor *rows = ggml_new_tensor_1d(ctx, GGML_TYPE_I32, num_indices);
			
 
				-    rows->data = malloc(ggml_nbytes(rows));
			
 
				-
			
 
				+    ggml_tensor* rows = ggml_new_tensor_1d(ctx, GGML_TYPE_I32, num_indices);
			
 
				     for (int i = 0; i < num_indices; i++) {
			
 
				         ((int32_t *)rows->data)[i] = start_index + i;
			
 
				     }
			
@@ -566,82 +600,77 @@ extern "C" ggml_tensor* RelativePositionMHA_forward(
 
				     // self_attn: load pos_enc weights & compute_r
			
 
				     // In fairseq2 pos_enc weights are calculated on the fly, since some more custom operators might be needed to enable this,
			
 
				     // we store the results (fixed) in checkpoint as model.audio_enc_pos_enc_w and load directly.
			
 
				-    struct ggml_tensor * r = ggml_get_rows(ctx, model.tensors["speech_encoder.pos_enc"], rows);
			
 
				-    r = ggml_mul_mat(ctx, model.tensors[prefix + ".sdpa.r_proj.weight"], r);
			
 
				+    ggml_tensor* r = ggml_get_rows(ctx, model.tensors["speech_encoder.pos_enc"], rows);
			
 
				+    r = mul_mat(ctx, model.tensors[prefix + ".sdpa.r_proj.weight"], r);
			
 
				     r = ggml_dup(ctx, ggml_permute(ctx,
			
 
				                         ggml_cpy(ctx,
			
 
				                             r,
			
 
				                             ggml_new_tensor_3d(ctx, GGML_TYPE_F32, K_h, H, S*2-1)),
			
 
				                         0, 2, 1, 3));
			
 
				 
			
 
				-    struct ggml_tensor * u_bias = ggml_reshape_3d(ctx, model.tensors[prefix + ".sdpa.u_bias"], K_h, 1, H);
			
 
				-    struct ggml_tensor * v_bias = ggml_reshape_3d(ctx, model.tensors[prefix + ".sdpa.v_bias"], K_h, 1, H);
			
 
				+    ggml_tensor* u_bias = ggml_reshape_3d(ctx, model.tensors[prefix + ".sdpa.u_bias"], K_h, 1, H);
			
 
				+    ggml_tensor* v_bias = ggml_reshape_3d(ctx, model.tensors[prefix + ".sdpa.v_bias"], K_h, 1, H);
			
 
				 
			
 
				     // self_attn: Permute QKV
			
 
				 
			
 
				-    struct ggml_tensor * Q =
			
 
				-                ggml_dup(ctx, ggml_permute(ctx,
			
 
				+    ggml_tensor* Q = ggml_cont(ctx, ggml_permute(ctx,
			
 
				                         ggml_cpy(ctx,
			
 
				                             Qcur,
			
 
				                             ggml_new_tensor_3d(ctx, GGML_TYPE_F32, K_h, H, S)),
			
 
				                         0, 2, 1, 3)); // (H * K_h, S) -> (K_h, H, S) -> (K_h, S, H)
			
 
				-    struct ggml_tensor * K =
			
 
				-                ggml_dup(ctx, ggml_permute(ctx,
			
 
				+    ggml_tensor* K = ggml_cont(ctx, ggml_permute(ctx,
			
 
				                         ggml_cpy(ctx,
			
 
				                             Kcur,
			
 
				                             ggml_new_tensor_3d(ctx, GGML_TYPE_F32, K_h, H, S)),
			
 
				                         0, 2, 1, 3)); // (H * K_h, S) -> (K_h, H, S) -> (K_h, S, H)
			
 
				-    struct ggml_tensor * V =
			
 
				-                ggml_dup(ctx, ggml_permute(ctx,
			
 
				+    ggml_tensor* V = ggml_cont(ctx, ggml_permute(ctx,
			
 
				                         ggml_cpy(ctx,
			
 
				                             Vcur,
			
 
				                             ggml_new_tensor_3d(ctx, GGML_TYPE_F32, K_h, H, S)),
			
 
				                         1, 2, 0, 3)); // (H * K_h, S) -> (K_h, H, S) -> (H, S, K_h)
			
 
				 
			
 
				 
			
 
				-    struct ggml_tensor * q_with_u_bias = ggml_add(ctx, Q, u_bias); // (K_h, S, H)
			
 
				-    struct ggml_tensor * q_with_v_bias = ggml_add(ctx, Q, v_bias); // (K_h, S, H)
			
 
				+    ggml_tensor* q_with_u_bias = ggml_add_inplace(ctx, ggml_dup(ctx, Q), u_bias); // (K_h, S, H)
			
 
				+    ggml_tensor* q_with_v_bias = ggml_add_inplace(ctx, Q, v_bias); // (K_h, S, H)
			
 
				 
			
 
				-    struct ggml_tensor * ac = ggml_mul_mat(ctx, K, q_with_u_bias);
			
 
				-    struct ggml_tensor * bd = ggml_mul_mat(ctx, r, q_with_v_bias);
			
 
				+    ggml_tensor* ac = mul_mat(ctx, K, q_with_u_bias);
			
 
				+    ggml_tensor* bd = mul_mat(ctx, r, q_with_v_bias);
			
 
				 
			
 
				 
			
 
				     // self_attn: shift_bd. Logic follows https://github.com/facebookresearch/fairseq2/blob/main/src/fairseq2/nn/transformer/relative_attention.py#L161
			
 
				     bd = ggml_dup(ctx, ggml_permute(ctx, bd, 2, 1, 0, 3)); // H, S, 2S-1
			
 
				 
			
 
				-    struct ggml_tensor * pad = ggml_new_tensor_3d(ctx, GGML_TYPE_F32, H, S, 1);
			
 
				-    pad->data = malloc(ggml_nbytes(pad));
			
 
				-
			
 
				+    ggml_tensor* pad = ggml_new_tensor_3d(ctx, GGML_TYPE_F32, H, S, 1);
			
 
				     pad = ggml_set_f32(pad, 0.0);
			
 
				+
			
 
				     bd = ggml_concat(ctx, pad, bd); // bd[i][j][0] == 0, (H, S, 2S)
			
 
				     bd = ggml_dup(ctx, ggml_permute(ctx, bd, 2, 1, 0, 3)); // (2S, S, H)
			
 
				-    bd = ggml_dup(ctx, ggml_reshape_3d(ctx, bd, S, 2*S, H));  // (S, 2S, H)
			
 
				-    bd = ggml_remove_head_row(ctx, bd); // A custom operator introduced to reduce 1st row (in the 2nd dim)
			
 
				-
			
 
				-    bd = ggml_reshape_3d(ctx, bd, 2*S-1, S, H);
			
 
				-
			
 
				-    bd = ggml_get_first_cols_by_rows(ctx, bd); // A custom operator introduced to get first #rows cols.
			
 
				-
			
 
				+    bd = ggml_reshape_3d(ctx, bd, S, 2 * S, H);  // (S, 2S, H)
			
 
				+    // discard the first set of positive positions
			
 
				+    bd = ggml_dup(ctx, ggml_slice(ctx, bd, 1, 1, 2 * S));
			
 
				+    // shifts each row by an extra step
			
 
				+    bd = ggml_reshape_3d(ctx, bd, 2 * S - 1, S, H);
			
 
				+    // Discard positions used for shift.
			
 
				+    bd = ggml_slice(ctx, bd, 0, 0, S);
			
 
				 
			
 
				     // self_attn: compute attn / weights
			
 
				-    struct ggml_tensor * attn_weights = ggml_add(ctx, ac, bd);
			
 
				-    struct ggml_tensor * attn_scale = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, 1, 1);
			
 
				-    attn_scale->data = malloc(ggml_nbytes(attn_scale));
			
 
				+    ggml_tensor* attn_weights = ggml_add_inplace(ctx, ac, bd);
			
 
				+    ggml_tensor* attn_scale = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, 1, 1);
			
 
				     ggml_set_f32(attn_scale, 1.0 / pow(K_h, 0.5));
			
 
				-    attn_weights = ggml_mul(ctx, ggml_repeat(ctx, attn_scale, attn_weights), attn_weights);
			
 
				+    attn_weights = ggml_mul_inplace(ctx, attn_weights, ggml_repeat(ctx, attn_scale, attn_weights));
			
 
				     attn_weights = ggml_soft_max(ctx, attn_weights);
			
 
				 
			
 
				-    struct ggml_tensor * attn = ggml_mul_mat(ctx, V, attn_weights); // K_h, S, H
			
 
				+    ggml_tensor* attn = mul_mat(ctx, V, attn_weights); // K_h, S, H
			
 
				     attn = ggml_dup(ctx, ggml_permute(ctx, attn, 0, 2, 1, 3));
			
 
				-    struct ggml_tensor * attn_2d = ggml_reshape_2d(ctx, attn, K_h * H, S);
			
 
				-
			
 
				-    struct ggml_tensor * attn_out = ggml_mul_mat(ctx, model.tensors[prefix + ".output_proj.weight"], attn_2d);
			
 
				-    attn_out = ggml_add(ctx,
			
 
				-            ggml_repeat(ctx,
			
 
				-                model.tensors[prefix + ".output_proj.bias"],
			
 
				-                attn_out),
			
 
				-            attn_out);
			
 
				-    attn_out = ggml_add(ctx, residual, attn_out);
			
 
				+    ggml_tensor* attn_2d = ggml_reshape_2d(ctx, attn, K_h * H, S);
			
 
				+
			
 
				+    ggml_tensor* attn_out = mul_mat(ctx, model.tensors[prefix + ".output_proj.weight"], attn_2d);
			
 
				+    attn_out = ggml_add_inplace(
			
 
				+        ctx,
			
 
				+        attn_out,
			
 
				+        ggml_repeat(ctx, model.tensors[prefix + ".output_proj.bias"], attn_out)
			
 
				+    );
			
 
				+    attn_out = ggml_add_inplace(ctx, attn_out, residual);
			
 
				     return attn_out;
			
 
				 }
			
 
				 
			
@@ -654,7 +683,7 @@ extern "C" ggml_tensor* ConvModule_forward(
 
				         ggml_tensor* residual = seqs;
			
 
				         seqs = LayerNorm_forward(model, prefix + "_layer_norm", seqs);
			
 
				         // conv: Use matmul for pointwise conv 1 - kernel_size=1, no padding case
			
 
				-        seqs = ggml_mul_mat(ctx, model.tensors[prefix + ".pointwise_conv1.weight"], seqs);
			
 
				+        seqs = mul_mat(ctx, model.tensors[prefix + ".pointwise_conv1.weight"], seqs);
			
 
				 
			
 
				         // conv: GLU
			
 
				         seqs = ggml_glu(ctx, seqs);
			
@@ -667,14 +696,14 @@ extern "C" ggml_tensor* ConvModule_forward(
 
				         seqs = ggml_batch_norm(ctx, seqs, model.tensors[prefix + ".batch_norm.weight"], model.tensors[prefix + ".batch_norm.bias"], model.tensors[prefix + ".batch_norm.running_mean"], model.tensors[prefix + ".batch_norm.running_var"], 1e-5);
			
 
				 
			
 
				         // conv: SiLU actvation
			
 
				-        seqs = ggml_silu(ctx, seqs);
			
 
				+        seqs = ggml_silu_inplace(ctx, seqs);
			
 
				         seqs = ggml_dup(ctx, ggml_permute(ctx, seqs, 1, 0, 2, 3));
			
 
				 
			
 
				         // conv: Use matmul for pointwise conv 2 - kernel_size=1, no padding case
			
 
				-        seqs = ggml_mul_mat(ctx, model.tensors[prefix + ".pointwise_conv2.weight"], seqs);
			
 
				+        seqs = mul_mat(ctx, model.tensors[prefix + ".pointwise_conv2.weight"], seqs);
			
 
				 
			
 
				         // conv: + residual
			
 
				-        seqs = ggml_add(ctx, seqs, residual);
			
 
				+        seqs = ggml_add_inplace(ctx, seqs, residual);
			
 
				         return seqs;
			
 
				 }
			
 
				 
			
@@ -685,21 +714,20 @@ extern "C" ggml_tensor* StandardConformerEncoderLayer_forward(
 
				     ggml_tensor* padding_mask
			
 
				 ) {
			
 
				     ggml_context* ctx = model.ctx;
			
 
				-    struct ggml_tensor * ffn_scale = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, 1, 1);
			
 
				-    ffn_scale->data = malloc(ggml_nbytes(ffn_scale));
			
 
				+    ggml_tensor* ffn_scale = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, 1, 1);
			
 
				     ggml_set_f32(ffn_scale, 0.5f);
			
 
				-    struct ggml_tensor * residual = seqs;
			
 
				+    ggml_tensor* residual = seqs;
			
 
				     seqs = LayerNorm_forward(model, prefix + ".ffn1_layer_norm", seqs);
			
 
				     seqs = SiluFeedForwardNetwork_forward(model, prefix + ".ffn1", seqs);
			
 
				-    seqs = ggml_mul(ctx, ggml_repeat(ctx, ffn_scale, seqs), seqs);
			
 
				-    seqs = ggml_add(ctx, seqs, residual);
			
 
				+    seqs = ggml_mul_inplace(ctx, seqs, ggml_repeat(ctx, ffn_scale, seqs));
			
 
				+    seqs = ggml_add_inplace(ctx, seqs, residual);
			
 
				     seqs = RelativePositionMHA_forward(model, prefix + ".self_attn", seqs);
			
 
				     seqs = ConvModule_forward(model, prefix + ".conv", seqs);
			
 
				     residual = seqs;
			
 
				     seqs = LayerNorm_forward(model, prefix + ".ffn2_layer_norm", seqs);
			
 
				     seqs = SiluFeedForwardNetwork_forward(model, prefix + ".ffn2", seqs);
			
 
				-    seqs = ggml_mul(ctx, ggml_repeat(ctx, ffn_scale, seqs), seqs);
			
 
				-    seqs = ggml_add(ctx, seqs, residual);
			
 
				+    seqs = ggml_mul_inplace(ctx, seqs, ggml_repeat(ctx, ffn_scale, seqs));
			
 
				+    seqs = ggml_add_inplace(ctx, seqs, residual);
			
 
				     seqs = LayerNorm_forward(model, prefix + ".layer_norm", seqs);
			
 
				     return seqs;
			
 
				 }
			
@@ -709,7 +737,7 @@ extern "C" ggml_tensor* StandardConformerEncoder_forward(
 
				     const std::string& prefix,
			
 
				     ggml_tensor* seqs,
			
 
				     ggml_tensor* padding_mask
			
 
				-) { // TODO: Implement this!
			
 
				+) {
			
 
				     ggml_context* ctx = model.ctx;
			
 
				     seqs = WaveformToFbank_forward(model, prefix, seqs);
			
 
				     seqs = LayerNorm_forward(model, prefix + "_frontend.post_extract_layer_norm", seqs);
			
@@ -732,11 +760,10 @@ extern "C" ggml_tensor* StandardConformerEncoder_forward(
 
				     seqs = Linear_forward(model, prefix + ".proj1", seqs);
			
 
				     seqs = ggml_relu_inplace(ctx, seqs);
			
 
				     seqs = Linear_forward(model, prefix + ".proj2", seqs);
			
 
				-    struct ggml_tensor * ffn_scale = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, 1, 1);
			
 
				-    ffn_scale->data = malloc(ggml_nbytes(ffn_scale));
			
 
				+    ggml_tensor* ffn_scale = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, 1, 1);
			
 
				     ggml_set_f32(ffn_scale, 0.5f);
			
 
				     seqs = ggml_mul(ctx, ggml_repeat(ctx, ffn_scale, seqs), seqs);
			
 
				-    seqs = ggml_add(ctx, seqs, residual);
			
 
				+    seqs = ggml_add_inplace(ctx, seqs, residual);
			
 
				     layer_idx = 0;
			
 
				     layer_name = prefix + ".adaptor_layers." + std::to_string(layer_idx);
			
 
				     while (has_layer(model, layer_name)) {
			
@@ -759,19 +786,19 @@ extern "C" ggml_tensor* StandardConformerEncoderAdaptorLayer_forward(
 
				     ggml_tensor* padding_mask
			
 
				 ) {
			
 
				     ggml_context* ctx = model.ctx;
			
 
				-    struct ggml_tensor * residual = seqs;
			
 
				+    ggml_tensor* residual = seqs;
			
 
				     residual = LayerNorm_forward(model, prefix + ".residual_layer_norm", residual);
			
 
				     residual = ggml_dup(ctx, ggml_permute(ctx, residual, 1, 0, 2, 3));
			
 
				     residual = ggml_conv_1d_generic(ctx, model.tensors[prefix + ".residual_conv.weight"], residual, 8, 4, 1);
			
 
				     residual = ggml_dup(ctx, ggml_permute(ctx, residual, 1, 0, 2, 3));
			
 
				-    residual = ggml_add(ctx, ggml_repeat(ctx, model.tensors[prefix + ".residual_conv.bias"], residual), residual);
			
 
				+    residual = ggml_add_inplace(ctx, ggml_repeat(ctx, model.tensors[prefix + ".residual_conv.bias"], residual), residual);
			
 
				     residual = ggml_glu(ctx, residual);
			
 
				 
			
 
				     seqs = LayerNorm_forward(model, prefix + ".self_attn_layer_norm", seqs);
			
 
				     seqs = ggml_dup(ctx, ggml_permute(ctx, seqs, 1, 0, 2, 3));
			
 
				     seqs = ggml_conv_1d_generic(ctx, model.tensors[prefix + ".self_attn_conv.weight"], seqs, 8, 4, 1);
			
 
				     seqs = ggml_dup(ctx, ggml_permute(ctx, seqs, 1, 0, 2, 3));
			
 
				-    seqs = ggml_add(ctx, ggml_repeat(ctx, model.tensors[prefix + ".self_attn_conv.bias"], seqs), seqs);
			
 
				+    seqs = ggml_add_inplace(ctx, seqs, ggml_repeat(ctx, model.tensors[prefix + ".self_attn_conv.bias"], seqs));
			
 
				     seqs = ggml_glu(ctx, seqs);
			
 
				 
			
 
				     seqs = MultiheadAttention_forward(
			
@@ -782,18 +809,18 @@ extern "C" ggml_tensor* StandardConformerEncoderAdaptorLayer_forward(
 
				         seqs,
			
 
				         /*attention masks=*/nullptr
			
 
				     );
			
 
				-    seqs = ggml_add(ctx, seqs, residual);
			
 
				+    seqs = ggml_add_inplace(ctx, seqs, residual);
			
 
				     residual = seqs;
			
 
				     seqs = LayerNorm_forward(model, prefix + ".ffn_layer_norm", seqs);
			
 
				     seqs = StandardFeedForwardNetwork_forward(model, prefix + ".ffn", seqs);
			
 
				-    seqs = ggml_add(ctx, seqs, residual);
			
 
				+    seqs = ggml_add_inplace(ctx, seqs, residual);
			
 
				     return seqs;
			
 
				 }
			
 
				 
			
 
				 
			
 
				 /// ggml_slice(X, -1, start, end) is equivalent to X[start:end]
			
 
				 /// ggml_slice(X, 0, start, end) is equivalent to X[..., start:end]
			
 
				-struct ggml_tensor * ggml_slice(
			
 
				+ggml_tensor* ggml_slice(
			
 
				     struct ggml_context * ctx,
			
 
				     struct ggml_tensor  * a,
			
 
				     int axis,
			
@@ -804,9 +831,9 @@ struct ggml_tensor * ggml_slice(
 
				     std::copy(a->ne, a->ne + 4, ne);
			
 
				     if (axis < 0) axis = a->n_dims + axis;
			
 
				     if (start < 0) start = ne[axis] + start;
			
 
				-    if (end < 0) end = ne[axis] + end;
			
 
				+    if (end <= 0) end = ne[axis] + end;
			
 
				     GGML_ASSERT(0 <= start);
			
 
				-    GGML_ASSERT(start <= end);
			
 
				+    GGML_ASSERT(start < end);
			
 
				     GGML_ASSERT(end <= ne[axis]);
			
 
				 
			
 
				 
			
@@ -820,7 +847,7 @@ struct ggml_tensor * ggml_slice(
 
				     return result;
			
 
				 }
			
 
				 
			
 
				-struct ggml_tensor * ggml_select(
			
 
				+ggml_tensor* ggml_select(
			
 
				     struct ggml_context * ctx,
			
 
				     struct ggml_tensor  * a,
			
 
				     int axis,
			
@@ -846,6 +873,7 @@ struct ggml_tensor * ggml_select(
 
				 }
			
 
				 
			
 
				 
			
 
				+// Inplace computation of PositionalEmbedding
			
 
				 extern "C" ggml_tensor* PositionalEmbedding_forward(
			
 
				     fairseq2_model& model,
			
 
				     const std::string& prefix,
			
@@ -955,7 +983,7 @@ extern "C" ggml_tensor* StandardTransformerDecoderLayer_forward(
 
				     if (has_layer(model, prefix + ".self_attn_norm"))
			
 
				         seqs = LayerNorm_forward(model, prefix + ".self_attn_norm", seqs);
			
 
				 
			
 
				-    seqs = ggml_add(ctx, seqs, residual);
			
 
				+    seqs = ggml_add_inplace(ctx, seqs, residual);
			
 
				 
			
 
				     if (norm_order == TRANSFORMER_NORM_ORDER_POST)
			
 
				         seqs =  LayerNorm_forward(model, prefix + ".self_attn_layer_norm", seqs);
			
@@ -985,7 +1013,7 @@ extern "C" ggml_tensor* StandardTransformerDecoderLayer_forward(
 
				         /*attention masks=*/encoder_padding_mask
			
 
				     );
			
 
				 
			
 
				-    seqs = ggml_add(ctx, seqs, residual);
			
 
				+    seqs = ggml_add_inplace(ctx, seqs, residual);
			
 
				 
			
 
				     if (norm_order == TRANSFORMER_NORM_ORDER_POST)
			
 
				         seqs =  LayerNorm_forward(model, prefix + ".encoder_decoder_attn_layer_norm", seqs);
			
@@ -1002,7 +1030,7 @@ extern "C" ggml_tensor* StandardTransformerDecoderLayer_forward(
 
				     // if self.residual_scale is not None:
			
 
				     // residual = self.residual_scale * residual
			
 
				 
			
 
				-    seqs = ggml_add(ctx, seqs, residual);
			
 
				+    seqs = ggml_add_inplace(ctx, seqs, residual);
			
 
				 
			
 
				     if (norm_order == TRANSFORMER_NORM_ORDER_POST)
			
 
				         seqs = LayerNorm_forward(model, prefix + ".ffn_layer_norm", seqs);
			
@@ -1119,6 +1147,7 @@ extern "C" void _bootstrap_seqs_and_scores(
 
				     ggml_tensor* encoder_output,
			
 
				     ggml_tensor* encoder_padding_mask
			
 
				 ) {
			
 
				+    ZoneScoped;
			
 
				     int prefix_seq_len = job.prefix_seq->ne[0];
			
 
				     int max_seq_len = scores->ne[0];
			
 
				     int beam_size = scores->ne[1];
			
@@ -1181,6 +1210,7 @@ int topk(
 
				     std::int64_t k,
			
 
				     ggml_tensor* candidate_indices
			
 
				 ) {
			
 
				+    ZoneNamed(topk, true);
			
 
				     // Take the best 2 x `beam_size` predictions. We'll choose the first
			
 
				     // `beam_size` of these which don't predict EOS to continue with.
			
 
				     // (N, 2 x B)
			
@@ -1196,6 +1226,46 @@ int topk(
 
				     return K;
			
 
				 }
			
 
				 
			
 
				+void _tweak_lprobs(const SequenceGeneratorJob& job, ggml_tensor* lprobs, int step_nr, int max_seq_len, std::size_t vocab_size) {
			
 
				+    ZoneNamed(tweak_lprobs, true);
			
 
				+    std::size_t beam_size = job.opts.beam_size;
			
 
				+    std::size_t eos_idx = job.eos_idx;
			
 
				+
			
 
				+    // Do not allow EOS before reaching the minimum sequence length.
			
 
				+    if (step_nr < job.opts.min_seq_len) {
			
 
				+        // lprobs[:, :, self.eos_idx] = -INFINITY;
			
 
				+        for (size_t i = 0; i < beam_size; ++i)
			
 
				+            ggml_set_f32_1d(lprobs, vocab_size * i + eos_idx, -INFINITY);
			
 
				+    }
			
 
				+
			
 
				+    // If we have reached the maximum length, force the last step to be EOS.
			
 
				+    if (step_nr == max_seq_len - 2) {
			
 
				+        // lprobs[:, :, : self.eos_idx]       = -torch.inf
			
 
				+        // lprobs[:, :,   self.eos_idx + 1 :] = -torch.inf
			
 
				+        for (size_t b = 0; b < beam_size; ++b) {
			
 
				+            size_t t = 0;
			
 
				+            for (t = 0; t < eos_idx; ++t)
			
 
				+                ggml_set_f32_1d(lprobs, vocab_size * b + t, -INFINITY);
			
 
				+            for (t = eos_idx + 1; t < vocab_size; ++t)
			
 
				+                ggml_set_f32_1d(lprobs, vocab_size * b + t, -INFINITY);
			
 
				+        }
			
 
				+    }
			
 
				+
			
 
				+    // Never allow PAD.
			
 
				+    std::size_t pad_idx = job.pad_idx;
			
 
				+    for (size_t i = 0; i < beam_size; ++i)
			
 
				+        ggml_set_f32_1d(lprobs, vocab_size * i + pad_idx, -INFINITY);
			
 
				+
			
 
				+    // Apply UNK penalty.
			
 
				+    if (job.unk_idx >= 0 && job.opts.unk_penalty != 0) {
			
 
				+        // lprobs[:, :, self.unk_idx] -= self.opts.unk_penalty
			
 
				+        auto lprobs_raw = ggml_get_data_f32(lprobs);
			
 
				+        for (size_t i = 0; i < beam_size; ++i)
			
 
				+            lprobs_raw[vocab_size * i + job.unk_idx] -= job.opts.unk_penalty;
			
 
				+    }
			
 
				+}
			
 
				+
			
 
				+
			
 
				 
			
 
				 /// Copies the sequence and scores of a given candidate beam.
			
 
				 void _finalize_hypothesis(
			
@@ -1209,6 +1279,7 @@ void _finalize_hypothesis(
 
				     ggml_tensor* scores, // (beam_size, seq_len)
			
 
				     Hypothesis* hypothesis
			
 
				 ) {
			
 
				+    ZoneNamed(_finalize_hypothesis, true);
			
 
				     ggml_tensor* seq = ggml_new_tensor_1d(ctx, GGML_TYPE_I32, step_nr + 2);
			
 
				     hypothesis->seq = seq;
			
 
				     ggml_tensor* step_scores = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, step_nr + 2);
			
@@ -1241,6 +1312,15 @@ void _finalize_hypothesis(
 
				     (Type*)(ggml_new_tensor_1d(ctx, GGML_TYPE_I8, sizeof(Type) * n)->data);
			
 
				 
			
 
				 
			
 
				+ggml_context* ctx_from_buffer(std::vector<uint8_t>& buffer) {
			
 
				+    return ggml_init({
			
 
				+        /*.mem_size   =*/ static_cast<int64_t>(buffer.capacity()),
			
 
				+        /*.mem_buffer =*/ buffer.data(),
			
 
				+        /*.no_alloc   =*/ false,
			
 
				+    });
			
 
				+}
			
 
				+
			
 
				+
			
 
				 /// Generates a translation for a single sequence
			
 
				 // TODO: clean ups
			
 
				 // * replace manual tensor tweaking with ggml_set_*d (a ggml_set_slice could be useful)
			
@@ -1251,9 +1331,13 @@ extern "C" Hypothesis* generate_sequence(
 
				     ggml_tensor* encoder_padding_mask,
			
 
				     ggml_context* result_ctx
			
 
				 ) {
			
 
				-    ggml_context* ctx = model.ctx;
			
 
				-    size_t eos_idx = job.eos_idx;
			
 
				-    auto pad_idx = job.pad_idx;
			
 
				+    ZoneScoped;
			
 
				+    std::vector<uint8_t> local_bufs[3] = {
			
 
				+        std::vector<uint8_t>(256 * 1024 * 1024),  // step_ctx
			
 
				+        std::vector<uint8_t>(256 * 1024 * 1024),  // next_step_ctx
			
 
				+        std::vector<uint8_t>(256 * 1024 * 1024)  // search_ctx
			
 
				+    };
			
 
				+    ggml_context* search_ctx = ctx_from_buffer(local_bufs[2]);
			
 
				 
			
 
				     ggml_tensor* embed = model.tensors["text_decoder_frontend.embed.weight"];
			
 
				     size_t vocab_size = embed->ne[1];
			
@@ -1261,10 +1345,12 @@ extern "C" Hypothesis* generate_sequence(
 
				     int source_seq_len = encoder_output->ne[1];
			
 
				     int max_seq_len = _determine_max_seq_len(job, source_seq_len);
			
 
				 
			
 
				+    ggml_context* original_ctx = model.ctx;
			
 
				+    model.ctx = search_ctx;
			
 
				     fairseq2_kv_cache_alloc(model, beam_size, max_seq_len);
			
 
				 
			
 
				     // (S_enc, M) -> (B, S_enc, M)
			
 
				-    _fan_out_encoder_output(ctx, &encoder_output, &encoder_padding_mask, beam_size);
			
 
				+    _fan_out_encoder_output(search_ctx, &encoder_output, &encoder_padding_mask, beam_size);
			
 
				 
			
 
				     // Allocate results in the context provided by the caller.
			
 
				     Hypothesis* finished_searches_begin = GGML_CTX_ALLOC(result_ctx, Hypothesis, beam_size);
			
@@ -1273,10 +1359,10 @@ extern "C" Hypothesis* generate_sequence(
 
				     Hypothesis* finished_searches_end = finished_searches + beam_size;
			
 
				 
			
 
				     // Initialize buffers. (B, S)
			
 
				-    ggml_tensor* seqs = ggml_new_tensor_2d(ctx, GGML_TYPE_I32, max_seq_len, beam_size);
			
 
				+    ggml_tensor* seqs = ggml_new_tensor_2d(search_ctx, GGML_TYPE_I32, max_seq_len, beam_size);
			
 
				     ggml_set_i32(seqs, 0);
			
 
				     ggml_set_name(seqs, "seqs_0");
			
 
				-    ggml_tensor* scores = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, max_seq_len, beam_size);
			
 
				+    ggml_tensor* scores = ggml_new_tensor_2d(search_ctx, GGML_TYPE_F32, max_seq_len, beam_size);
			
 
				     ggml_set_name(scores, "scores_0");
			
 
				     ggml_set_f32(scores, 0.0);
			
 
				 
			
@@ -1288,18 +1374,22 @@ extern "C" Hypothesis* generate_sequence(
 
				 
			
 
				     // Holds the indices of beams (a beam can occur more than once) that we
			
 
				     // should continue with in the next step.
			
 
				-    ggml_tensor* beam_indices = ggml_new_tensor_1d(ctx, GGML_TYPE_I32, beam_size);
			
 
				-    ggml_tensor* next_tokens = ggml_new_tensor_1d(ctx, GGML_TYPE_I32, beam_size);
			
 
				-    ggml_tensor* next_scores = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, beam_size);
			
 
				+    ggml_tensor* beam_indices = ggml_new_tensor_1d(search_ctx, GGML_TYPE_I32, beam_size);
			
 
				+    ggml_tensor* next_tokens = ggml_new_tensor_1d(search_ctx, GGML_TYPE_I32, beam_size);
			
 
				+    ggml_tensor* next_scores = ggml_new_tensor_1d(search_ctx, GGML_TYPE_F32, beam_size);
			
 
				 
			
 
				     // Array with integers up to 'vocab_size * beam_size' to represent next beams to explore
			
 
				-    ggml_tensor* candidate_indices = ggml_new_tensor_1d(ctx, GGML_TYPE_I32, vocab_size * beam_size);
			
 
				+    ggml_tensor* candidate_indices = ggml_new_tensor_1d(search_ctx, GGML_TYPE_I32, vocab_size * beam_size);
			
 
				     for (std::size_t i = 0; i < vocab_size * beam_size; ++i)
			
 
				         ((int32_t *)(candidate_indices->data))[i] = i;
			
 
				 
			
 
				-    // TODO: memory management, there should be a per-step ggml_context for intermediary results
			
 
				+    printf_mem_usage(search_ctx, "search_ctx");
			
 
				+
			
 
				+    ggml_context* step_ctx = ctx_from_buffer(local_bufs[0]);
			
 
				+    ggml_context* next_step_ctx = nullptr;
			
 
				     for (int step_nr = start_step; step_nr < max_seq_len - 1; ++step_nr) {
			
 
				-        ggml_tensor* prev_token = ggml_slice(ctx, seqs, 0, step_nr, step_nr + 1);
			
 
				+        model.ctx = step_ctx;
			
 
				+        ggml_tensor* prev_token = ggml_slice(step_ctx, seqs, 0, step_nr, step_nr + 1);
			
 
				         ggml_tensor* decoder_input = TransformerEmbeddingFrontend_forward(model, "text_decoder_frontend", prev_token);
			
 
				         ggml_tensor* decoder_output = StandardTransformerDecoder_forward(
			
 
				             model,
			
@@ -1311,67 +1401,37 @@ extern "C" Hypothesis* generate_sequence(
 
				         ); // (B, 1, D)
			
 
				 
			
 
				         // Just look at the last token.
			
 
				-        decoder_output = ggml_flatten_1d(ctx, decoder_output, 0);  // (B, model_dim)
			
 
				+        decoder_output = ggml_flatten_1d(step_ctx, decoder_output, 0);  // (B, model_dim)
			
 
				         ggml_tensor* logits = Linear_forward(model, "final_proj", decoder_output);  // (B, vocab_size)
			
 
				-        ggml_tensor* lprobs = ggml_log_softmax(ctx, logits);
			
 
				+        ggml_tensor* lprobs = ggml_log_softmax(step_ctx, logits);
			
 
				 
			
 
				         // Compute lprobs here so we can modify it in place in the lprob tweaking phase
			
 
				         // TODO: use ggml properly compute the tweaks
			
 
				         ggml_cgraph gf = ggml_build_forward(lprobs);
			
 
				-        printf("beam search step %d. Graph.n_nodes: %d\n", step_nr, gf.n_nodes);
			
 
				-        ggml_graph_compute_with_ctx(ctx, &gf, 1);
			
 
				+        // printf("beam search step %d. Graph.n_nodes: %d\n", step_nr, gf.n_nodes);
			
 
				+        ggml_graph_compute_with_ctx(step_ctx, &gf, 1);
			
 
				         ggml_detach(lprobs);
			
 
				 
			
 
				-        // // Do not allow EOS before reaching the minimum sequence length.
			
 
				-        if (step_nr < job.opts.min_seq_len) {
			
 
				-            // lprobs[:, :, self.eos_idx] = -INFINITY;
			
 
				-            for (size_t i = 0; i < beam_size; ++i)
			
 
				-                ggml_set_f32_1d(lprobs, vocab_size * i + eos_idx, -INFINITY);
			
 
				-        }
			
 
				-
			
 
				-        // If we have reached the maximum length, force the last step to be EOS.
			
 
				-        if (step_nr == max_seq_len - 2) {
			
 
				-            // lprobs[:, :, : self.eos_idx]       = -torch.inf
			
 
				-            // lprobs[:, :,   self.eos_idx + 1 :] = -torch.inf
			
 
				-            for (size_t b = 0; b < beam_size; ++b) {
			
 
				-                size_t t = 0;
			
 
				-                for (t = 0; t < eos_idx; ++t)
			
 
				-                    ggml_set_f32_1d(lprobs, vocab_size * b + t, -INFINITY);
			
 
				-                for (t = eos_idx + 1; t < vocab_size; ++t)
			
 
				-                    ggml_set_f32_1d(lprobs, vocab_size * b + t, -INFINITY);
			
 
				-            }
			
 
				-        }
			
 
				-
			
 
				-        // Never allow PAD.
			
 
				-        for (size_t i = 0; i < beam_size; ++i)
			
 
				-            ggml_set_f32_1d(lprobs, vocab_size * i + pad_idx, -INFINITY);
			
 
				-
			
 
				-        // Apply UNK penalty.
			
 
				-        if (job.unk_idx >= 0 && job.opts.unk_penalty != 0) {
			
 
				-            // lprobs[:, :, self.unk_idx] -= self.opts.unk_penalty
			
 
				-            auto lprobs_raw = ggml_get_data_f32(lprobs);
			
 
				-            for (size_t i = 0; i < beam_size; ++i)
			
 
				-                lprobs_raw[vocab_size * i + job.unk_idx] -= job.opts.unk_penalty;
			
 
				-        }
			
 
				+        _tweak_lprobs(job, lprobs, step_nr, max_seq_len, vocab_size);
			
 
				 
			
 
				-        ggml_tensor* last_scores = ggml_slice(ctx, scores, 0, step_nr, step_nr+1);
			
 
				+        ggml_tensor* last_scores = ggml_slice(step_ctx, scores, 0, step_nr, step_nr+1);
			
 
				         if (step_nr == start_step) {
			
 
				             // At the initial step, all hypotheses are equally likely, so we use
			
 
				             // only the first beam.
			
 
				-            lprobs = ggml_slice(ctx, lprobs, 1, 0, 1);
			
 
				-            lprobs = ggml_cont(ctx, lprobs);
			
 
				+            lprobs = ggml_slice(step_ctx, lprobs, 1, 0, 1);
			
 
				+            lprobs = ggml_cont(step_ctx, lprobs);
			
 
				             // The first step always indicates the beginning of the sequence and has no score.
			
 
				             if (step_nr > 0) {
			
 
				-                last_scores = ggml_slice(ctx, last_scores, 1, 0, 1);
			
 
				-                lprobs = ggml_add_inplace(ctx, lprobs, ggml_repeat(ctx, last_scores, lprobs));
			
 
				+                last_scores = ggml_slice(step_ctx, last_scores, 1, 0, 1);
			
 
				+                lprobs = ggml_add_inplace(step_ctx, lprobs, ggml_repeat(step_ctx, last_scores, lprobs));
			
 
				             }
			
 
				         } else {
			
 
				             // Make probabilities contain cumulative scores for each hypothesis.
			
 
				-            lprobs = ggml_add(ctx, lprobs, ggml_repeat(ctx, last_scores, lprobs));
			
 
				+            lprobs = ggml_add_inplace(step_ctx, lprobs, ggml_repeat(step_ctx, last_scores, lprobs));
			
 
				         }
			
 
				 
			
 
				         gf = ggml_build_forward(lprobs);
			
 
				-        ggml_graph_compute_with_ctx(ctx, &gf, 1);
			
 
				+        ggml_graph_compute_with_ctx(step_ctx, &gf, 1);
			
 
				 
			
 
				         // Determine (beam, token) candidates for the next step.
			
 
				         // (N, 2 x B)
			
@@ -1381,6 +1441,7 @@ extern "C" Hypothesis* generate_sequence(
 
				 
			
 
				         std::size_t ongoing_beams = 0;
			
 
				         for (std::int32_t i = 0; i < K; ++i) {
			
 
				+            ZoneNamed(beam_search_step, true);
			
 
				             int c = ggml_get_f32_1d(candidate_indices, i);
			
 
				             std::int32_t beam = c / vocab_size;
			
 
				             std::int32_t token = c % vocab_size;
			
@@ -1411,16 +1472,19 @@ extern "C" Hypothesis* generate_sequence(
 
				             // (B, S), (B) -> (B, S)
			
 
				             // ggml_get_rows and ggml_set only work with floats ...
			
 
				             new_seqs->type = GGML_TYPE_F32;
			
 
				-            new_seqs = ggml_get_rows(ctx, seqs, beam_indices);
			
 
				-            new_scores = ggml_get_rows(ctx, scores, beam_indices);
			
 
				+            new_seqs = ggml_get_rows(search_ctx, seqs, beam_indices);
			
 
				+            new_scores = ggml_get_rows(search_ctx, scores, beam_indices);
			
 
				             ggml_cgraph gf_reorder = ggml_build_forward(new_seqs);
			
 
				             ggml_build_forward_expand(&gf_reorder, new_scores);
			
 
				-            reorder_kv_cache(model, &gf_reorder, beam_indices);
			
 
				+            next_step_ctx = ctx_from_buffer(local_bufs[(step_nr + 1) % 2]);
			
 
				+            reorder_kv_cache(model, next_step_ctx, &gf_reorder, beam_indices);
			
 
				 
			
 
				-            ggml_graph_compute_with_ctx(ctx, &gf_reorder, 1);
			
 
				+            ggml_graph_compute_with_ctx(next_step_ctx, &gf_reorder, 1);
			
 
				             ggml_detach(new_seqs);
			
 
				             ggml_detach(new_scores);
			
 
				             new_seqs->type = GGML_TYPE_I32;
			
 
				+            printf_mem_usage(search_ctx, "search_ctx");
			
 
				+            SWAP(step_ctx, next_step_ctx);
			
 
				         }
			
 
				 
			
 
				         // new_seqs[:, step_nr + 1] = next_tokens
			
@@ -1433,6 +1497,7 @@ extern "C" Hypothesis* generate_sequence(
 
				         // TODO the old seqs and score buffers could be reused for next step
			
 
				         seqs = new_seqs;
			
 
				         scores = new_scores;
			
 
				+        printf_mem_usage(step_ctx, "step_ctx");
			
 
				     }
			
 
				 
			
 
				 end_of_beam_search:
			
@@ -1444,6 +1509,7 @@ end_of_beam_search:
 
				     );
			
 
				 
			
 
				     fairseq2_kv_cache_reset(model);
			
 
				+    model.ctx = original_ctx;
			
 
				     return finished_searches_begin;
			
 
				 }
			
 
				 
			
@@ -1458,3 +1524,188 @@ extern "C" Hypothesis* _testing_return_hypothesis_ptr(ggml_context* ctx) {
 
				 
			
 
				     return result;
			
 
				 }
			
 
				+
			
 
				+// SPM tokenizer
			
 
				+// original implementation:
			
 
				+// https://github.com/ggerganov/llama.cpp/commit/074bea2eb1f1349a0118239c4152914aecaa1be4
			
 
				+
			
 
				+
			
 
				+
			
 
				+struct llm_symbol {
			
 
				+    using index = int;
			
 
				+    index prev;
			
 
				+    index next;
			
 
				+    const char * text;
			
 
				+    size_t n;
			
 
				+    llama_vocab::id id;
			
 
				+};
			
 
				+
			
 
				+static_assert(std::is_trivially_copyable<llm_symbol>::value, "llm_symbol is not trivially copyable");
			
 
				+
			
 
				+static size_t utf8_len(char src) {
			
 
				+    const size_t lookup[] = { 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 3, 4 };
			
 
				+    uint8_t highbits = static_cast<uint8_t>(src) >> 4;
			
 
				+    return lookup[highbits];
			
 
				+}
			
 
				+
			
 
				+struct llm_bigram_spm {
			
 
				+    struct comparator {
			
 
				+        bool operator()(llm_bigram_spm & l, llm_bigram_spm & r) {
			
 
				+            return (l.score < r.score) || (l.score == r.score && l.left > r.left);
			
 
				+        }
			
 
				+    };
			
 
				+    using queue_storage = std::vector<llm_bigram_spm>;
			
 
				+    using queue = std::priority_queue<llm_bigram_spm, queue_storage, comparator>;
			
 
				+    llm_symbol::index left;
			
 
				+    llm_symbol::index right;
			
 
				+    float score;
			
 
				+    size_t size;
			
 
				+    llama_vocab::id id;
			
 
				+};
			
 
				+
			
 
				+struct llm_tokenizer_spm {
			
 
				+    llm_tokenizer_spm(const llama_vocab & vocab): vocab(vocab) {}
			
 
				+
			
 
				+    void tokenize(const std::string& input_text, ggml_tensor& output) {
			
 
				+        llama_vocab::id unk_idx = vocab.token_to_id.at("<unk>");
			
 
				+
			
 
				+        // split string into utf8 chars
			
 
				+        int index = 0;
			
 
				+        size_t offs = 0;
			
 
				+        // This is kind of annoying, but needed because with SPM,
			
 
				+        // characters following a space have a special meaning.
			
 
				+        // And the algorithm rely on substrings to do the lookups.
			
 
				+        std::string text = input_text;
			
 
				+        bool need_extra_space = text.size() > 0 && text[0] != ' ';
			
 
				+        if (need_extra_space) text = " " + text;
			
 
				+
			
 
				+        while (offs < text.size()) {
			
 
				+            size_t len = utf8_len(text[offs]);
			
 
				+            size_t n = std::min(len, text.size() - offs);
			
 
				+
			
 
				+            auto token = vocab.token_to_id.find(std::string(text, offs, n));
			
 
				+            llama_vocab::id id = token == vocab.token_to_id.end() ? unk_idx : token->second;
			
 
				+            llm_symbol sym = {
			
 
				+                /*prev*/ index - 1,
			
 
				+                /*next*/ offs + n == text.size() ? -1 : index + 1,
			
 
				+                /*text*/ text.c_str() + offs,
			
 
				+                /*n*/ n,
			
 
				+                /*id*/ id
			
 
				+            };
			
 
				+            offs += n;
			
 
				+            index++;
			
 
				+            symbols.emplace_back(sym);
			
 
				+        }
			
 
				+
			
 
				+        // seed the work queue with all possible 2-character tokens.
			
 
				+        for (size_t i = 1; i < symbols.size(); ++i) {
			
 
				+            try_add_bigram(i - 1, i);
			
 
				+        }
			
 
				+
			
 
				+        // keep substituting the highest frequency pairs for as long as we can.
			
 
				+        while (!work_queue.empty()) {
			
 
				+            auto bigram = work_queue.top();
			
 
				+            work_queue.pop();
			
 
				+
			
 
				+            auto & left_sym = symbols[bigram.left];
			
 
				+            auto & right_sym = symbols[bigram.right];
			
 
				+            const std::string text = std::string(left_sym.text, left_sym.n + right_sym.n);
			
 
				+
			
 
				+            // if one of the symbols already got merged, skip it.
			
 
				+            if (
			
 
				+                left_sym.n == 0
			
 
				+                || right_sym.n == 0
			
 
				+                || left_sym.n + right_sym.n != bigram.size
			
 
				+            ) continue;
			
 
				+
			
 
				+            // merge the right sym into the left one
			
 
				+            left_sym.n += right_sym.n;
			
 
				+            left_sym.id = bigram.id;
			
 
				+            right_sym.n = 0;
			
 
				+
			
 
				+            // remove the right sym from the chain
			
 
				+            left_sym.next = right_sym.next;
			
 
				+            if (right_sym.next >= 0) {
			
 
				+                symbols[right_sym.next].prev = bigram.left;
			
 
				+            }
			
 
				+
			
 
				+            // find more substitutions
			
 
				+            try_add_bigram(left_sym.prev, bigram.left);
			
 
				+            try_add_bigram(bigram.left, left_sym.next);
			
 
				+        }
			
 
				+
			
 
				+        llama_vocab::id* out = (llama_vocab::id*)output.data;
			
 
				+        int out_step = sizeof(llama_vocab::id) / output.nb[0];
			
 
				+        int num_tokens = 0;
			
 
				+        for (int i = 0; i > -1; i = symbols[i].next) {
			
 
				+            llm_symbol& symbol = symbols[i];
			
 
				+            *(out + num_tokens * out_step) = symbol.id;
			
 
				+            num_tokens += 1;
			
 
				+        }
			
 
				+        *(out + num_tokens * out_step) = vocab.token_to_id.at("</s>");
			
 
				+        num_tokens += 1;
			
 
				+        output.ne[0] = num_tokens;
			
 
				+    }
			
 
				+
			
 
				+private:
			
 
				+
			
 
				+    void try_add_bigram(int left, int right) {
			
 
				+        if (left == -1 || right == -1) {
			
 
				+            return;
			
 
				+        }
			
 
				+
			
 
				+        const std::string text = std::string(symbols[left].text, symbols[left].n + symbols[right].n);
			
 
				+        auto token = vocab.token_to_id.find(text);
			
 
				+
			
 
				+        if (token == vocab.token_to_id.end()) {
			
 
				+            return;
			
 
				+        }
			
 
				+
			
 
				+        llama_vocab::id id = token->second;
			
 
				+        if (static_cast<size_t>(id) >= vocab.id_to_token.size()) {
			
 
				+            return;
			
 
				+        }
			
 
				+
			
 
				+        const auto& tok_data = vocab.id_to_token[id];
			
 
				+        llm_bigram_spm bigram = {
			
 
				+            /*left */ left,
			
 
				+            /*right*/ right,
			
 
				+            /*score*/ tok_data.score,
			
 
				+            /*size */ text.size(),
			
 
				+            /*id */ id
			
 
				+        };
			
 
				+        work_queue.push(bigram);
			
 
				+    }
			
 
				+
			
 
				+    const llama_vocab& vocab;
			
 
				+    std::vector<llm_symbol> symbols;
			
 
				+    llm_bigram_spm::queue work_queue;
			
 
				+};
			
 
				+
			
 
				+
			
 
				+extern "C" void fairseq2_spm_tokenize(fairseq2_model* model, const char* text, ggml_tensor& out) {
			
 
				+    llm_tokenizer_spm spm = {model->vocab};
			
 
				+    spm.tokenize(std::string(text), out);
			
 
				+}
			
 
				+
			
 
				+extern "C" std::size_t fairseq2_spm_detokenize(fairseq2_model* model, ggml_tensor* tokens, char* out) {
			
 
				+    int eos_idx = model->vocab.token_to_id["</s>"];
			
 
				+    int sent_len = tokens->ne[0];
			
 
				+    std::size_t written = 0;
			
 
				+    for (int i = 0; i < sent_len; ++i) {
			
 
				+        int id = ggml_get_i32_1d(tokens, i);
			
 
				+        // Don't print the EOS token but only if it appear at the end.
			
 
				+        if (i == sent_len - 1 && eos_idx == id) break;
			
 
				+
			
 
				+        std::string token = model->vocab.id_to_token.at(id).text;
			
 
				+        // Skip the first space outputted.
			
 
				+        auto begin = token.begin();
			
 
				+        if (i == 0 && token.size() > 0 && token[0] == ' ') begin += 1;
			
 
				+        std::copy(begin, token.end(), out);
			
 
				+        std::size_t n = token.end() - begin;
			
 
				+        written += n;
			
 
				+        out += n;
			
 
				+    }
			
 
				+    *out = '0';
			
 
				+    return written;
			
 
				+}
			
--- a/ggml/examples/unity/fairseq2.h
+++ b/ggml/examples/unity/fairseq2.h
@@ -6,6 +6,68 @@
 
				 #include "ggml.h"
			
 
				 #include "kaldi-native-fbank/csrc/feature-fbank.h"
			
 
				 
			
 
				+typedef int32_t llama_token;
			
 
				+
			
 
				+extern "C" enum llama_token_type {
			
 
				+    LLAMA_TOKEN_TYPE_UNDEFINED    = 0,
			
 
				+    LLAMA_TOKEN_TYPE_NORMAL       = 1,
			
 
				+    LLAMA_TOKEN_TYPE_UNKNOWN      = 2,
			
 
				+    LLAMA_TOKEN_TYPE_CONTROL      = 3,
			
 
				+    LLAMA_TOKEN_TYPE_USER_DEFINED = 4,
			
 
				+    LLAMA_TOKEN_TYPE_UNUSED       = 5,
			
 
				+    LLAMA_TOKEN_TYPE_BYTE         = 6,
			
 
				+};
			
 
				+
			
 
				+
			
 
				+struct llama_vocab {
			
 
				+    using id    = int32_t;
			
 
				+    using token = std::string;
			
 
				+    using ttype = llama_token_type;
			
 
				+
			
 
				+    struct token_data {
			
 
				+        token text;
			
 
				+        float score;
			
 
				+        ttype type;
			
 
				+    };
			
 
				+
			
 
				+    std::unordered_map<token, id> token_to_id;
			
 
				+    std::vector<token_data>       id_to_token;
			
 
				+
			
 
				+    std::unordered_map<token, id> special_tokens_cache;
			
 
				+    std::map<std::pair<std::string, std::string>, int> bpe_ranks;
			
 
				+
			
 
				+    // default LLaMA special tokens
			
 
				+    id special_bos_id = 1;
			
 
				+    id special_eos_id = 2;
			
 
				+    id special_unk_id = 0;
			
 
				+    id special_sep_id = -1;
			
 
				+    id special_pad_id = -1;
			
 
				+
			
 
				+    int special_add_bos = -1; // -1 unknown, 1 add, 0 don't add.
			
 
				+    int special_add_eos = -1; // -1 unknown, 1 add, 0 don't add.
			
 
				+
			
 
				+    id linefeed_id       = 13;
			
 
				+    id special_prefix_id = 32007;
			
 
				+    id special_middle_id = 32009;
			
 
				+    id special_suffix_id = 32008;
			
 
				+    id special_eot_id    = 32010;
			
 
				+
			
 
				+    int find_bpe_rank(std::string token_left, std::string token_right) const {
			
 
				+        GGML_ASSERT(token_left.find(" ") == std::string::npos);
			
 
				+        GGML_ASSERT(token_left.find("\n") == std::string::npos);
			
 
				+        GGML_ASSERT(token_right.find(" ") == std::string::npos);
			
 
				+        GGML_ASSERT(token_right.find("\n") == std::string::npos);
			
 
				+
			
 
				+        auto it = bpe_ranks.find(std::make_pair(token_left, token_right));
			
 
				+        if (it == bpe_ranks.end()) {
			
 
				+            return -1;
			
 
				+        }
			
 
				+
			
 
				+        return it->second;
			
 
				+    }
			
 
				+};
			
 
				+
			
 
				+
			
 
				 struct KeyValueTensor {
			
 
				     ggml_tensor* full_k;
			
 
				     ggml_tensor* full_v;
			
@@ -27,6 +89,8 @@ struct fairseq2_model {
 
				     // Normally those can be inferred from hparams, but it avoids doing this logic in GGML
			
 
				     std::unordered_map<std::string, std::int64_t> layer_config;
			
 
				 
			
 
				+    llama_vocab vocab;
			
 
				+
			
 
				     // KV cache for attention layers
			
 
				     mutable std::unordered_map<std::string, KeyValueTensor> kv_cache;
			
 
				 
			
@@ -42,6 +106,8 @@ extern "C" fairseq2_model* fairseq2_model_alloc();
 
				 // free the models and all its owned tensors
			
 
				 extern "C" void fairseq2_model_free(fairseq2_model* model);
			
 
				 extern "C" void fairseq2_model_set_inference_ctx(fairseq2_model* model, ggml_context* ctx);
			
 
				+extern "C" void fairseq2_kv_cache_reset(const fairseq2_model& model);
			
 
				+ggml_context* ctx_from_buffer(std::vector<uint8_t>& buffer);
			
 
				 
			
 
				 extern "C" std::string* std_string_alloc(char* c_str);
			
 
				 extern "C" void std_string_free(std::string* str);
			
@@ -233,3 +299,6 @@ extern "C" Hypothesis* generate_sequence(
 
				     ggml_tensor* encoder_padding_mask,
			
 
				     ggml_context* result_ctx
			
 
				 );
			
 
				+
			
 
				+extern "C" void fairseq2_spm_tokenize(fairseq2_model* model, const char* text, ggml_tensor& out);
			
 
				+extern "C" std::size_t fairseq2_spm_detokenize(fairseq2_model* model, ggml_tensor* tokens, char* out);
			
--- a/ggml/examples/unity/model_loader.cpp
+++ b/ggml/examples/unity/model_loader.cpp
@@ -44,7 +44,7 @@ model_loader::load_model_weights(fairseq2_model &model, std::ifstream &fin)
 
				     fin.read((char*) &ctx_size, sizeof(ctx_size));
			
 
				 
			
 
				     struct ggml_init_params params = {
			
 
				-        /*.mem_size   =*/ static_cast<std::size_t>(ctx_size),
			
 
				+        /*.mem_size   =*/ ctx_size,
			
 
				         /*.mem_buffer =*/ NULL,
			
 
				         /*.no_alloc   =*/ false,
			
 
				     };
			
@@ -71,7 +71,7 @@ model_loader::load_model_weights(fairseq2_model &model, std::ifstream &fin)
 
				     }
			
 
				 
			
 
				     double mb = 1024.0 * 1024.0;
			
 
				-    printf("%s: model size  = %8.2f MB, memory used = %8.2f MB, memory reserved = %8.2f \n",
			
 
				+    printf("%s: model size: %8.2f MB, memory used: %8.2f MB, memory reserved: %8.2f MB\n",
			
 
				         __func__,
			
 
				         model_size / mb,
			
 
				         ggml_used_mem(model.tensors_ctx) / mb,
			
@@ -120,6 +120,44 @@ void model_loader::load_hparams(std::unordered_map<std::string, std::int64_t>& h
 
				     }
			
 
				 }
			
 
				 
			
 
				+void model_loader::load_vocab(llama_vocab& vocab, std::ifstream &fin)
			
 
				+{
			
 
				+    // vocab.special_bos_id = 1;
			
 
				+    // vocab.special_eos_id = 2;
			
 
				+    // vocab.special_unk_id = 0;
			
 
				+    // vocab.special_sep_id = -1;
			
 
				+    // vocab.special_pad_id = -1;
			
 
				+
			
 
				+    std::int64_t vocab_size = 0;
			
 
				+    fin.read(reinterpret_cast<char*>(&vocab_size), sizeof(vocab_size));
			
 
				+    GGML_ASSERT(fin.gcount() == 8);
			
 
				+
			
 
				+    vocab.token_to_id.reserve(vocab_size);
			
 
				+    vocab.id_to_token.reserve(vocab_size);
			
 
				+
			
 
				+    std::string packed_vocab = get_name(fin);
			
 
				+    std::int64_t ctx_size = vocab_size * sizeof(float) + vocab_size + 2 * ggml_tensor_overhead();
			
 
				+    ggml_context* ctx = ggml_init(ggml_init_params{ctx_size, nullptr, false});
			
 
				+    ggml_tensor* lengths_tensor = load_tensor_value(fin, ctx);
			
 
				+    std::int8_t* lengths = (std::int8_t*)lengths_tensor->data;
			
 
				+    ggml_tensor* scores_tensor = load_tensor_value(fin, ctx);
			
 
				+    float* scores = ggml_get_data_f32(scores_tensor);
			
 
				+
			
 
				+    int64_t offset = 0;
			
 
				+    for (int i = 0; i < vocab_size; ++i) {
			
 
				+        // TODO: we should use string view instead of copying each word in a new string
			
 
				+        std::string word = packed_vocab.substr(offset, lengths[i]);
			
 
				+        vocab.token_to_id[word] = i;
			
 
				+        vocab.id_to_token.push_back({word, scores[i], LLAMA_TOKEN_TYPE_NORMAL});
			
 
				+        offset += lengths[i] + 1;
			
 
				+    }
			
 
				+    // Since we copied lengths and scores, we don't need the context anymore.
			
 
				+    ggml_free(ctx);
			
 
				+
			
 
				+    // vocab.linefeed_id = llama_byte_to_token(vocab, '\n');
			
 
				+    // TODO: special tokens stuff ?
			
 
				+}
			
 
				+
			
 
				 ggml_tensor* load_tensor_value(std::ifstream &fin, ggml_context* ctx)
			
 
				 {
			
 
				     int32_t n_dims = 0;
			
@@ -162,6 +200,7 @@ extern "C" int load_fairseq2_ggml_file(fairseq2_model& model, const char* fname)
 
				     auto fin = open_ggml_file(fname);
			
 
				     loader.load_hparams(model.hparams, fin);
			
 
				     loader.load_hparams(model.layer_config, fin);
			
 
				+    loader.load_vocab(model.vocab, fin);
			
 
				     loader.load_model_weights(model, fin);
			
 
				     return 0;
			
 
				 }
			
--- a/ggml/examples/unity/model_loader.h
+++ b/ggml/examples/unity/model_loader.h
@@ -6,16 +6,15 @@
 
				 
			
 
				 #pragma once
			
 
				 
			
 
				+#include <fstream>
			
 
				+#include <iostream>
			
 
				+#include <stdexcept>
			
 
				 
			
 
				 #include "ggml/ggml.h"
			
 
				 #include "ggml/ggml-alloc.h"
			
 
				 
			
 
				-#include "common.h"
			
 
				-#include "common-ggml.h"
			
 
				 #include "fairseq2.h"
			
 
				 
			
 
				-#include <iostream>
			
 
				-#include <stdexcept>
			
 
				 
			
 
				 class model_loader {
			
 
				 public:
			
@@ -23,6 +22,8 @@ public:
 
				 
			
 
				     void load_hparams(std::unordered_map<std::string, std::int64_t>& hparams, std::ifstream &fin);
			
 
				 
			
 
				+    void load_vocab(llama_vocab& vocab, std::ifstream &fin);
			
 
				+
			
 
				 private:
			
 
				     ggml_tensor * next_tensor(std::ifstream &fin, fairseq2_model &model);
			
 
				 
			
--- a/ggml/examples/unity/unity.cpp
+++ b/ggml/examples/unity/unity.cpp
@@ -0,0 +1,202 @@
 
				+#include "ggml/ggml.h"
			
 
				+#include "ggml/ggml-alloc.h"
			
 
				+
			
 
				+#include "math.h"
			
 
				+#include "model_loader.h"
			
 
				+#include "fairseq2.h"
			
 
				+
			
 
				+#include <thread>
			
 
				+#include <cassert>
			
 
				+#include <cmath>
			
 
				+#include <cstdio>
			
 
				+#include <cstring>
			
 
				+#include <fstream>
			
 
				+#include <map>
			
 
				+#include <string>
			
 
				+#include <vector>
			
 
				+#include <iostream>
			
 
				+#include <sndfile.h>
			
 
				+#include <cstdlib>
			
 
				+
			
 
				+struct unity_params {
			
 
				+    int32_t n_threads = std::min(4, (int32_t) std::thread::hardware_concurrency());
			
 
				+    std::string model      = "/private/home/dnn/unity.cpp_inc/seamless_communication/ggml/seamlessM4T_medium.ggml"; // model path
			
 
				+    std::string tgt_lang = "eng";
			
 
				+    std::vector<std::string> files = {};
			
 
				+    bool text = false;
			
 
				+    SequenceGeneratorOptions opts = {
			
 
				+        /*beam_size*/ 5,
			
 
				+        /*min_seq_len*/ 1,
			
 
				+        /*soft_max_seq_len_a*/ 1,
			
 
				+        /*soft_max_seq_len_b*/ 200,
			
 
				+        /*hard_max_seq_len*/ 1000,
			
 
				+        /*len_penalty*/ 1.0,
			
 
				+        /*unk_penalty*/ 0.0,
			
 
				+        /*normalize_scores*/ true,
			
 
				+    };
			
 
				+};
			
 
				+
			
 
				+
			
 
				+void unity_print_usage(int /*argc*/, char ** argv, const unity_params & params) {
			
 
				+    fprintf(stderr, "usage: %s [options] file1 file2 ...\n", argv[0]);
			
 
				+    fprintf(stderr, "\n");
			
 
				+    fprintf(stderr, "options:\n");
			
 
				+    fprintf(stderr, "  -h, --help            show this help message and exit\n");
			
 
				+    fprintf(stderr, "  -t N, --threads N     number of threads to use during computation (default: %d)\n", params.n_threads);
			
 
				+    fprintf(stderr, "  -m FNAME, --model FNAME\n");
			
 
				+    fprintf(stderr, "                        model path (default: %s)\n", params.model.c_str());
			
 
				+    fprintf(stderr, "  --text                text output\n");
			
 
				+    fprintf(stderr, "  --beam-size           beam size (default: %d)\n", params.opts.beam_size);
			
 
				+    fprintf(stderr, "\n");
			
 
				+}
			
 
				+
			
 
				+std::string get_next_arg(int& i, int argc, char** argv, const std::string& flag, unity_params& params) {
			
 
				+    if (i + 1 < argc && argv[i + 1][0] != '-') {
			
 
				+        return argv[++i];
			
 
				+    } else {
			
 
				+        fprintf(stderr, "error: %s requires one argument.\n", flag.c_str());
			
 
				+        unity_print_usage(argc, argv, params);
			
 
				+        exit(0);
			
 
				+    }
			
 
				+}
			
 
				+
			
 
				+
			
 
				+bool unity_params_parse(int argc, char ** argv, unity_params & params) {
			
 
				+    for (int i = 1; i < argc; i++) {
			
 
				+        std::string arg = argv[i];
			
 
				+        if (arg == "-h" || arg == "--help") {
			
 
				+            unity_print_usage(argc, argv, params);
			
 
				+        } else if (arg == "-t" || arg == "--threads") {
			
 
				+            params.n_threads = std::stoi(get_next_arg(i, argc, argv, arg, params));
			
 
				+        } else if (arg == "-m" || arg == "--model") {
			
 
				+            params.model = get_next_arg(i, argc, argv, arg, params);
			
 
				+        } else if (arg == "-l" || arg == "--tgt-lang") {
			
 
				+            params.tgt_lang = get_next_arg(i, argc, argv, arg, params);
			
 
				+        } else if (arg == "--text") {
			
 
				+            params.text = true;
			
 
				+        } else if (arg == "-b" || arg == "--beam-size") {
			
 
				+            params.opts.beam_size = std::stoi(get_next_arg(i, argc, argv, arg, params));
			
 
				+        } else {
			
 
				+            params.files.push_back(std::string(arg));
			
 
				+        }
			
 
				+    }
			
 
				+    return true;
			
 
				+}
			
 
				+
			
 
				+struct ggml_cgraph * unity_speech_encoder(
			
 
				+        fairseq2_model& model,
			
 
				+        struct ggml_tensor * speech_input) {
			
 
				+    ggml_context* ctx0 = model.ctx;
			
 
				+    ggml_cgraph* gf = ggml_new_graph(ctx0);
			
 
				+    ggml_tensor* seqs = StandardConformerEncoder_forward(model, "speech_encoder", speech_input, nullptr);
			
 
				+    seqs = ggml_dup(model.ctx, seqs);
			
 
				+    ggml_build_forward_expand(gf, seqs);
			
 
				+    return gf;
			
 
				+}
			
 
				+
			
 
				+
			
 
				+Hypothesis* unity_decode(
			
 
				+        fairseq2_model& model,
			
 
				+        const SequenceGeneratorOptions& opts,
			
 
				+        int tgt_lang_idx,
			
 
				+        ggml_tensor* encoder_output,
			
 
				+        int n_threads
			
 
				+) {
			
 
				+    SequenceGeneratorJob job = {
			
 
				+        opts,
			
 
				+        /*prefix_seq*/ nullptr,
			
 
				+        /*pad_idx*/model.vocab.token_to_id["<pad>"],
			
 
				+        /*unk_idx*/model.vocab.token_to_id["<unk>"],
			
 
				+        /*bos_idx*/model.vocab.token_to_id["<s>"],
			
 
				+        /*eos_idx*/model.vocab.token_to_id["</s>"],
			
 
				+        /*num_threads*/n_threads,
			
 
				+    };
			
 
				+    struct ggml_tensor * prefix_seq = ggml_new_tensor_1d(model.ctx, GGML_TYPE_I32, 2);
			
 
				+    ((int *)prefix_seq->data)[0]  = job.eos_idx;
			
 
				+    ((int *)prefix_seq->data)[1]  = tgt_lang_idx;
			
 
				+    job.prefix_seq = prefix_seq;
			
 
				+    return generate_sequence(model, job, encoder_output, nullptr, model.ctx);
			
 
				+}
			
 
				+
			
 
				+int main(int argc, char ** argv) {
			
 
				+
			
 
				+    unity_params params;
			
 
				+
			
 
				+    if (unity_params_parse(argc, argv, params) == false) {
			
 
				+        return 1;
			
 
				+    }
			
 
				+
			
 
				+    fairseq2_model model;
			
 
				+
			
 
				+    // load the model
			
 
				+    if (load_fairseq2_ggml_file(model, params.model.c_str())) {
			
 
				+        fprintf(stderr, "%s: failed to load model from '%s'\n", __func__, params.model.c_str());
			
 
				+        return 1;
			
 
				+    }
			
 
				+
			
 
				+    char result_str[4096];
			
 
				+    static std::vector<uint8_t> encoder_buf(4 * 1024LL * 1024LL * 1024LL);
			
 
				+
			
 
				+    std::string input;
			
 
				+    bool interactive = params.files.size() == 0;
			
 
				+    auto next_file = params.files.begin();
			
 
				+    while (true) {
			
 
				+        if (interactive) {
			
 
				+            std::cout << "\nEnter audio_path and tgt_lang, separated by space (or 'exit' to quit):\n";
			
 
				+            std::getline(std::cin, input);
			
 
				+            if (input == "exit") {
			
 
				+                break;
			
 
				+            }
			
 
				+        } else {
			
 
				+            if (next_file == params.files.end()) break;
			
 
				+            input = *(next_file++);
			
 
				+        }
			
 
				+        std::istringstream iss(input);
			
 
				+        std::string audio_path;
			
 
				+        std::string tgt_lang = params.tgt_lang;
			
 
				+        iss >> audio_path >> tgt_lang;
			
 
				+        if (audio_path == "-") {
			
 
				+            audio_path = "/proc/self/fd/0";
			
 
				+        }
			
 
				+        std::cerr << "Translating (Transcribing) " << audio_path << " to " << tgt_lang << "\n";
			
 
				+        SF_INFO info;
			
 
				+        SNDFILE* sndfile = sf_open(audio_path.c_str(), SFM_READ, &info);
			
 
				+        if (!sndfile) {
			
 
				+            std::cerr << "Could not open file\n";
			
 
				+            if (interactive) continue;
			
 
				+            else return 1;
			
 
				+        }
			
 
				+        auto tgt_lang_ptr = model.vocab.token_to_id.find("__" + tgt_lang + "__");
			
 
				+        if (tgt_lang_ptr == model.vocab.token_to_id.end()) {
			
 
				+            std::cerr << "Unknown language " << tgt_lang << "\n";
			
 
				+            if (interactive) continue;
			
 
				+            else return 2;
			
 
				+        }
			
 
				+        int tgt_lang_idx = tgt_lang_ptr->second;
			
 
				+
			
 
				+        // Load audio input
			
 
				+        std::vector<float> data(info.frames * info.channels); // Assume info.channels is always 1
			
 
				+        sf_readf_float(sndfile, data.data(), info.frames);
			
 
				+
			
 
				+        // Reset the ggml_context
			
 
				+        model.ctx = ctx_from_buffer(encoder_buf);
			
 
				+        ggml_tensor* seqs = ggml_new_tensor_2d(model.ctx, GGML_TYPE_F32, info.frames, 1);
			
 
				+        memcpy(seqs->data, data.data(), data.size() * sizeof(float));
			
 
				+        // Audio encoder
			
 
				+        ggml_cgraph* gf = unity_speech_encoder(model, seqs);
			
 
				+        ggml_graph_compute_with_ctx(model.ctx, gf, params.n_threads);
			
 
				+        ggml_tensor* encoder_output = gf->nodes[gf->n_nodes - 1];
			
 
				+
			
 
				+        // Beam search decoding
			
 
				+        const Hypothesis* result = unity_decode(model, params.opts, tgt_lang_idx, encoder_output, params.n_threads);
			
 
				+
			
 
				+        // Drop language and bos token.
			
 
				+        ggml_tensor* tokens = ggml_slice(model.ctx, result[0].seq, 0, 2, 0);
			
 
				+
			
 
				+        // Collect result string
			
 
				+        int n = fairseq2_spm_detokenize(&model, tokens, (char*)&result_str);
			
 
				+        std::cout << std::string((char*)&result_str, n) << std::endl;
			
 
				+    }
			
 
				+
			
 
				+    return 0;
			
 
				+}
			
--- a/ggml/ggml.py
+++ b/ggml/ggml.py
@@ -14,7 +14,7 @@ from typing import Any, Callable, Dict, Iterator, NamedTuple, Tuple, Type, Union
 
				 import numpy as np
			
 
				 import torch
			
 
				 
			
 
				-from ctypes_utils import Ptr, c_fn, c_struct
			
 
				+from ctypes_utils import NULLPTR, Ptr, c_fn, c_struct
			
 
				 from third_party_ggml import *
			
 
				 
			
 
				 ### Helpers
			
@@ -489,7 +489,7 @@ def _testing_return_hypothesis_ptr(ctx: ggml_context_p) -> Ptr[Hypothesis]:
 
				 
			
 
				 
			
 
				 @c_fn(lib)
			
 
				-def fairseq2_model_layer_config_int(model: ctypes.c_void_p, name: str) -> int:
			
 
				+def fairseq2_model_layer_config_int(model: ctypes.c_void_p, name: bytes) -> int:
			
 
				     return -1
			
 
				 
			
 
				 
			
@@ -514,3 +514,17 @@ def fairseq2_kv_cache_alloc(
 
				         yield
			
 
				     finally:
			
 
				         _fairseq2_kv_cache_reset(model)
			
 
				+
			
 
				+
			
 
				+@c_fn(lib)
			
 
				+def fairseq2_spm_tokenize(
			
 
				+    model: ctypes.c_void_p, text: bytes, out: Ptr[ggml_tensor]
			
 
				+) -> None:
			
 
				+    pass
			
 
				+
			
 
				+
			
 
				+@c_fn(lib)
			
 
				+def fairseq2_spm_detokenize(
			
 
				+    model: ctypes.c_void_p, tensor: Ptr[ggml_tensor], out: ctypes.Array[ctypes.c_char]
			
 
				+) -> ctypes.c_size_t:
			
 
				+    return 0
			
--- a/ggml/ggml_convert.py
+++ b/ggml/ggml_convert.py
@@ -18,7 +18,7 @@ from fairseq2.assets import AssetCard
 
				 from fairseq2.models.transformer.frontend import TransformerEmbeddingFrontend
			
 
				 from fairseq2.nn import SinusoidalPositionEncoder
			
 
				 from fairseq2.nn.transformer import RelativePositionalEncoding
			
 
				-from seamless_communication.models.unity import load_unity_config, load_unity_model
			
 
				+from seamless_communication.models import unity
			
 
				 
			
 
				 import ggml
			
 
				 
			
@@ -29,6 +29,7 @@ def convert_model(
 
				     model_name: Union[str, torch.nn.Module],
			
 
				     out: Optional[Path] = None,
			
 
				     hparams: Optional[Dict[str, Any]] = None,
			
 
				+    vocab: Optional[List[Tuple[str, float]]] = None,
			
 
				 ) -> None:
			
 
				     if isinstance(model_name, str):
			
 
				         # Load the corresponding fairseq2 model
			
@@ -38,12 +39,15 @@ def convert_model(
 
				         # The type of model depends on the name
			
 
				         if "unity" in model_name or "seamlessM4T" in model_name:
			
 
				             if hparams is None:
			
 
				-                model_config = load_unity_config(model_name)
			
 
				+                model_config = unity.load_unity_config(model_name)
			
 
				                 hparams = flatten_config(
			
 
				                     dataclasses.asdict(model_config), separator="__"
			
 
				                 )
			
 
				                 print(hparams)
			
 
				-            model = load_unity_model(model_name)
			
 
				+            model = unity.load_unity_model(model_name)
			
 
				+            if vocab is None:
			
 
				+                tokenizer = unity.load_unity_text_tokenizer(model_name)
			
 
				+                vocab = read_vocab(tokenizer)
			
 
				         else:
			
 
				             raise ValueError(f"Unsupported model type: {model_name}")
			
 
				     else:
			
@@ -57,9 +61,9 @@ def convert_model(
 
				     state_dict = model.state_dict()
			
 
				     fixup_model(model, state_dict)
			
 
				     layer_config = read_layer_config(model)
			
 
				+    vocab = vocab or []
			
 
				 
			
 
				-    with out.open("wb") as o:
			
 
				-        write_ggml_file(o, hparams, layer_config, state_dict)
			
 
				+    write_ggml_file(out, hparams, layer_config, vocab, state_dict)
			
 
				 
			
 
				 
			
 
				 def _nested_getattr(model: Any, name: str) -> Any:
			
@@ -120,16 +124,28 @@ def fixup_model(model: torch.nn.Module, state_dict: Dict[str, torch.Tensor]) ->
 
				         state_dict["speech_encoder.pos_enc"] = rel_pos_enc.freqs
			
 
				 
			
 
				 
			
 
				+def read_vocab(tokenizer: Any) -> List[Tuple[str, float]]:
			
 
				+    vocab_info = tokenizer.vocab_info
			
 
				+    vocab = [
			
 
				+        (tokenizer.model.index_to_token(i).replace("▁", " "), -i)
			
 
				+        for i in range(vocab_info.size)
			
 
				+    ]
			
 
				+    return vocab  # type: ignore[return-value]
			
 
				+
			
 
				+
			
 
				 def write_ggml_file(
			
 
				-    out: BufferedWriter,
			
 
				+    out: Path,
			
 
				     hparams: Dict[str, Any],
			
 
				     layer_config: Dict[str, Any],
			
 
				+    vocab: List[Tuple[str, float]],
			
 
				     state_dict: Dict[str, torch.Tensor],
			
 
				 ) -> None:
			
 
				-    write_ggml_header(out)
			
 
				-    write_hparams(out, hparams)
			
 
				-    write_hparams(out, layer_config)
			
 
				-    write_state_dict(out, state_dict)
			
 
				+    with out.open("wb") as o:
			
 
				+        write_ggml_header(o)
			
 
				+        write_hparams(o, hparams)
			
 
				+        write_hparams(o, layer_config)
			
 
				+        write_vocab(o, vocab)
			
 
				+        write_state_dict(o, state_dict)
			
 
				 
			
 
				 
			
 
				 def write_ggml_header(out: BufferedWriter) -> None:
			
@@ -162,6 +178,24 @@ def write_hparams(out: BufferedWriter, hparams: Dict[str, Any]) -> None:
 
				     logging.info(f"Saved {len(simple_vals)} params.")
			
 
				 
			
 
				 
			
 
				+def write_vocab(out: BufferedWriter, vocab: List[Tuple[str, float]]) -> None:
			
 
				+    out.write(struct.pack("<q", len(vocab)))
			
 
				+
			
 
				+    # Write all words concatenated in a buffer
			
 
				+    words = [bytes(w, "utf8") for w, score in vocab]
			
 
				+    packed_words = b"\0".join(words)
			
 
				+    # We use i32 to allow reusing the string loading codes
			
 
				+    packed_len = struct.pack("<i", len(packed_words))
			
 
				+    out.write(packed_len)
			
 
				+    out.write(packed_words)
			
 
				+
			
 
				+    lengths = torch.tensor([len(w) for w in words], dtype=torch.int8)
			
 
				+    write_tensor(out, lengths)
			
 
				+
			
 
				+    scores = torch.tensor([score for w, score in vocab], dtype=torch.float32)
			
 
				+    write_tensor(out, scores)
			
 
				+
			
 
				+
			
 
				 def write_state_dict(out: BufferedWriter, state_dict: Dict[str, torch.Tensor]) -> None:
			
 
				     """Write pytorch state dict.
			
 
				 
			
@@ -234,13 +268,15 @@ def write_tensor(out: BufferedWriter, value: torch.Tensor) -> None:
 
				     data.tofile(out)
			
 
				 
			
 
				 
			
 
				-def torch_to_ggml_type(dtype: type) -> int:
			
 
				+def torch_to_ggml_type(dtype: torch.dtype) -> int:
			
 
				     if dtype is torch.float32:
			
 
				         return ggml.GGML_TYPE_F32
			
 
				     elif dtype is torch.float16:
			
 
				         return ggml.GGML_TYPE_F16
			
 
				     elif dtype is torch.int32:
			
 
				         return ggml.GGML_TYPE_I32
			
 
				+    elif dtype is torch.int8:
			
 
				+        return ggml.GGML_TYPE_I8
			
 
				     else:
			
 
				         raise NotImplementedError(f"{dtype} is not mapped to a GGML_TYPE")
			
 
				 
			
@@ -293,7 +329,7 @@ def read_layer_config(model: torch.nn.Module) -> Dict[str, Any]:
 
				             if k.startswith("_"):
			
 
				                 continue
			
 
				             # All modules have a "training" flag
			
 
				-            if k == "training":
			
 
				+            if k in ("training", "init_fn"):
			
 
				                 continue
			
 
				             if v is None:
			
 
				                 continue
			
--- a/ggml/include/ggml/ggml.h
+++ b/ggml/include/ggml/ggml.h
@@ -363,8 +363,6 @@ extern "C" {
 
				         GGML_OP_REPEAT,
			
 
				         GGML_OP_REPEAT_BACK,
			
 
				         GGML_OP_CONCAT,
			
 
				-        GGML_OP_REMOVE_HEAD_ROW,
			
 
				-        GGML_OP_GET_FIRST_COLS_BY_ROWS,
			
 
				         GGML_OP_SILU_BACK,
			
 
				         GGML_OP_NORM, // normalize
			
 
				         GGML_OP_BATCH_NORM, 
			
@@ -562,7 +560,7 @@ extern "C" {
 
				 
			
 
				     struct ggml_init_params {
			
 
				         // memory pool
			
 
				-        size_t mem_size;   // bytes
			
 
				+        int64_t mem_size;   // bytes
			
 
				         void * mem_buffer; // if NULL, memory will be allocated internally
			
 
				         bool   no_alloc;   // don't allocate memory for the tensor data
			
 
				     };
			
@@ -645,7 +643,7 @@ extern "C" {
 
				     GGML_API void    ggml_set_no_alloc(struct ggml_context * ctx, bool no_alloc);
			
 
				 
			
 
				     GGML_API void *  ggml_get_mem_buffer     (const struct ggml_context * ctx);
			
 
				-    GGML_API size_t  ggml_get_mem_size       (const struct ggml_context * ctx);
			
 
				+    GGML_API int64_t  ggml_get_mem_size       (const struct ggml_context * ctx);
			
 
				     GGML_API size_t  ggml_get_max_tensor_size(const struct ggml_context * ctx);
			
 
				 
			
 
				     GGML_API struct ggml_tensor * ggml_new_tensor(
			
@@ -852,14 +850,6 @@ extern "C" {
 
				             struct ggml_tensor  * a,
			
 
				             struct ggml_tensor  * b);
			
 
				 
			
 
				-    GGML_API struct ggml_tensor * ggml_remove_head_row(
			
 
				-            struct ggml_context * ctx,
			
 
				-            struct ggml_tensor  * a);
			
 
				-
			
 
				-    GGML_API struct ggml_tensor * ggml_get_first_cols_by_rows(
			
 
				-            struct ggml_context * ctx,
			
 
				-            struct ggml_tensor  * a);
			
 
				-
			
 
				     GGML_API struct ggml_tensor * ggml_abs(
			
 
				             struct ggml_context * ctx,
			
 
				             struct ggml_tensor  * a);
			
--- a/ggml/src/CMakeLists.txt
+++ b/ggml/src/CMakeLists.txt
@@ -261,8 +261,12 @@ target_include_directories(${TARGET} PUBLIC
 
				     ../include
			
 
				     ../include/ggml
			
 
				     ../examples/
			
 
				+    ../tracy/public/
			
 
				     ${GGML_EXTRA_INCS}
			
 
				     )
			
 
				+if (TRACY_ENABLE)
			
 
				+    target_link_libraries (${TARGET} PUBLIC Tracy::TracyClient )
			
 
				+endif()
			
 
				 
			
 
				 if (MSVC)
			
 
				     target_link_libraries(${TARGET} PUBLIC ${GGML_EXTRA_LIBS} ${CMAKE_THREAD_LIBS_INIT} kaldi-native-fbank)
			
--- a/ggml/src/ggml.c
+++ b/ggml/src/ggml.c
@@ -25,6 +25,7 @@
 
				 #include <limits.h>
			
 
				 #include <stdarg.h>
			
 
				 #include <signal.h>
			
 
				+#include "tracy/TracyC.h"
			
 
				 
			
 
				 
			
 
				 #ifdef GGML_USE_METAL
			
@@ -2333,7 +2334,9 @@ inline static void ggml_vec_mul_f32 (const int n, float * z, const float * x, co
 
				 inline static void ggml_vec_div_f32 (const int n, float * z, const float * x, const float * y) { for (int i = 0; i < n; ++i) z[i]  = x[i]/y[i];   }
			
 
				 
			
 
				 static void ggml_vec_dot_f32(const int n, float * restrict s, const float * restrict x, const float * restrict y) {
			
 
				-#ifdef GGML_SIMD
			
 
				+#if defined(GGML_USE_OPENBLAS)
			
 
				+    float sumf = cblas_sdot(n, x, 1, y, 1);
			
 
				+#elif defined(GGML_SIMD)
			
 
				     float sumf = 0.0f;
			
 
				     const int np = (n & ~(GGML_F32_STEP - 1));
			
 
				 
			
@@ -3943,8 +3946,6 @@ static const char * GGML_OP_NAME[GGML_OP_COUNT] = {
 
				     "REPEAT",
			
 
				     "REPEAT_BACK",
			
 
				     "CONCAT",
			
 
				-    "REMOVE_HEAD_ROW",
			
 
				-    "GET_FIRST_COLS_BY_ROWS",
			
 
				     "SILU_BACK",
			
 
				     "NORM",
			
 
				     "BATCH_NORM",
			
@@ -4014,7 +4015,7 @@ static const char * GGML_OP_NAME[GGML_OP_COUNT] = {
 
				     "CROSS_ENTROPY_LOSS_BACK",
			
 
				 };
			
 
				 
			
 
				-// static_assert(GGML_OP_COUNT == 68, "GGML_OP_COUNT != 68"); // commented out for dev
			
 
				+static_assert(GGML_OP_COUNT == 75, "GGML_OP_COUNT != 75");
			
 
				 
			
 
				 static const char * GGML_OP_SYMBOL[GGML_OP_COUNT] = {
			
 
				     "none",
			
@@ -4036,10 +4037,6 @@ static const char * GGML_OP_SYMBOL[GGML_OP_COUNT] = {
 
				     "repeat(x)",
			
 
				     "repeat_back(x)",
			
 
				     "concat(x, y)",
			
 
				-    "remove_head_row(x)",
			
 
				-    "get_first_cols_by_rows(x)",
			
 
				-    "remove_head_row(x)",
			
 
				-    "get_first_cols_by_rows(x)",
			
 
				     "silu_back(x)",
			
 
				     "norm(x)",
			
 
				     "batch_norm(x)",
			
@@ -4107,8 +4104,7 @@ static const char * GGML_OP_SYMBOL[GGML_OP_COUNT] = {
 
				     "cross_entropy_loss_back(x,y)",
			
 
				 };
			
 
				 
			
 
				-// static_assert(GGML_OP_COUNT == 68, "GGML_OP_COUNT != 68");
			
 
				-// static_assert(GGML_OP_COUNT == 68, "GGML_OP_COUNT != 68");
			
 
				+static_assert(GGML_OP_COUNT == 75, "GGML_OP_COUNT != 75");
			
 
				 
			
 
				 static_assert(GGML_OP_POOL_COUNT == 2, "GGML_OP_POOL_COUNT != 2");
			
 
				 
			
@@ -4162,7 +4158,7 @@ static void ggml_setup_op_has_task_pass(void) {
 
				 //
			
 
				 
			
 
				 struct ggml_context {
			
 
				-    size_t mem_size;
			
 
				+    int64_t mem_size;
			
 
				     void * mem_buffer;
			
 
				     bool   mem_buffer_owned;
			
 
				     bool   no_alloc;
			
@@ -4699,7 +4695,7 @@ void * ggml_get_mem_buffer(const struct ggml_context * ctx) {
 
				     return ctx->mem_buffer;
			
 
				 }
			
 
				 
			
 
				-size_t ggml_get_mem_size(const struct ggml_context * ctx) {
			
 
				+int64_t ggml_get_mem_size(const struct ggml_context * ctx) {
			
 
				     return ctx->mem_size;
			
 
				 }
			
 
				 
			
@@ -5860,45 +5856,6 @@ struct ggml_tensor * ggml_concat(
 
				     return result;
			
 
				 }
			
 
				 
			
 
				-// ggml_remove_head_row
			
 
				-
			
 
				-struct ggml_tensor * ggml_remove_head_row(
			
 
				-    struct ggml_context* ctx,
			
 
				-    struct ggml_tensor* a) {
			
 
				-    bool is_node = false;
			
 
				-
			
 
				-    if (a->grad) {
			
 
				-        is_node = true;
			
 
				-    }
			
 
				-
			
 
				-    struct ggml_tensor * result = ggml_new_tensor_4d(ctx, a->type, a->ne[0], a->ne[1]-1, a->ne[2], a->ne[3]);
			
 
				-
			
 
				-    result->op = GGML_OP_REMOVE_HEAD_ROW;
			
 
				-    result->grad = is_node ? ggml_dup_tensor(ctx, result) : NULL;
			
 
				-    result->src[0] = a;
			
 
				-
			
 
				-    return result;
			
 
				-}
			
 
				-
			
 
				-// ggml_get_first_cols_by_rows
			
 
				-
			
 
				-struct ggml_tensor * ggml_get_first_cols_by_rows(
			
 
				-    struct ggml_context* ctx,
			
 
				-    struct ggml_tensor* a) {
			
 
				-    bool is_node = false;
			
 
				-
			
 
				-    if (a->grad) {
			
 
				-        is_node = true;
			
 
				-    }
			
 
				-    struct ggml_tensor * result = ggml_new_tensor_4d(ctx, a->type, a->ne[1], a->ne[1], a->ne[2], a->ne[3]);
			
 
				-
			
 
				-    result->op = GGML_OP_GET_FIRST_COLS_BY_ROWS;
			
 
				-    result->grad = is_node ? ggml_dup_tensor(ctx, result) : NULL;
			
 
				-    result->src[0] = a;
			
 
				-
			
 
				-    return result;
			
 
				-}
			
 
				-
			
 
				 // ggml_abs
			
 
				 
			
 
				 struct ggml_tensor * ggml_abs(
			
@@ -6253,6 +6210,23 @@ struct ggml_tensor * ggml_mul_mat(
 
				     GGML_ASSERT(ggml_can_mul_mat(a, b));
			
 
				     GGML_ASSERT(!ggml_is_transposed(a));
			
 
				 
			
 
				+#if defined(GGML_USE_OPENBLAS) && GGML_DEBUG
			
 
				+
			
 
				+    const int64_t i = a->ne[1];
			
 
				+    const int64_t j = b->ne[1];
			
 
				+    const int64_t k = a->ne[0]; // = b->ne[0]
			
 
				+
			
 
				+    bool big = (i >= 32 && j >= 32 && k >= 32);
			
 
				+    big = big || (i >= 512 && k >= 512);
			
 
				+
			
 
				+    if (!big) {
			
 
				+        printf("Not using Openblas for small matmul (%d, %d) @ (%d, %d) \n", i, k, j, k);
			
 
				+    }
			
 
				+    if (!ggml_is_contiguous(a) || !ggml_is_contiguous(b)) {
			
 
				+        printf("Not using Openblas for matmul (%d, %d) @ (%d, %d) because of non contiguous\n", i, k, j, k);
			
 
				+    }
			
 
				+#endif
			
 
				+
			
 
				     bool is_node = false;
			
 
				 
			
 
				     if (a->grad || b->grad) {
			
@@ -9073,7 +9047,17 @@ static void ggml_compute_forward_add_f32(
 
				 
			
 
				 #ifdef GGML_USE_ACCELERATE
			
 
				             vDSP_vadd(src0_ptr, 1, src1_ptr, 1, dst_ptr, 1, ne00);
			
 
				-#else
			
 
				+#elif GGML_USE_OPENBLAS
			
 
				+            // In saxpy adds a*x to y.
			
 
				+            if (dst_ptr == src0_ptr) {
			
 
				+                cblas_saxpy(ne00, 1.0f, src1_ptr, 1, dst_ptr, 1);
			
 
				+            } else if (dst_ptr == src1_ptr) {
			
 
				+                cblas_saxpy(ne00, 1.0f, src0_ptr, 1, dst_ptr, 1);
			
 
				+            } else {
			
 
				+                // Fallback to manual loop.
			
 
				+                ggml_vec_add_f32(ne00, dst_ptr, src0_ptr, src1_ptr);
			
 
				+            }
			
 
				+# else
			
 
				             ggml_vec_add_f32(ne00, dst_ptr, src0_ptr, src1_ptr);
			
 
				 #endif
			
 
				                 // }
			
@@ -9094,11 +9078,24 @@ static void ggml_compute_forward_add_f32(
 
				             float * dst_ptr  = (float *) ((char *) dst->data  + i03*nb3  + i02*nb2  + i01*nb1 );
			
 
				             float * src0_ptr = (float *) ((char *) src0->data + i03*nb03 + i02*nb02 + i01*nb01);
			
 
				 
			
 
				+#if GGML_USE_OPENBLAS
			
 
				+            float * src1_ptr = (float *) ((char *) src1->data + i13*nb13 + i12*nb12 + i11*nb11);
			
 
				+            if (dst_ptr == src0_ptr) {
			
 
				+                cblas_saxpy(ne0, 1.0f, src1_ptr, nb10 / sizeof(float), dst_ptr, 1);
			
 
				+                return;
			
 
				+            } else if (dst_ptr == src1_ptr) {
			
 
				+                cblas_saxpy(ne0, 1.0f, src0_ptr, 1, dst_ptr, nb10 / sizeof(float));
			
 
				+                return;
			
 
				+            } else {
			
 
				+                // Fallback to manual loop.
			
 
				+                abort();
			
 
				+            }
			
 
				+#else
			
 
				             for (int i0 = 0; i0 < ne0; i0++) {
			
 
				                 float * src1_ptr = (float *) ((char *) src1->data + i13*nb13 + i12*nb12 + i11*nb11 + i0*nb10);
			
 
				-
			
 
				                 dst_ptr[i0] = src0_ptr[i0] + *src1_ptr;
			
 
				             }
			
 
				+#endif
			
 
				         }
			
 
				     }
			
 
				 }
			
@@ -10534,99 +10531,6 @@ static void ggml_compute_forward_concat(
 
				     }
			
 
				 }
			
 
				 
			
 
				-// ggml_compute_forward_remove_head_row
			
 
				-
			
 
				-static void ggml_compute_forward_remove_head_row_f32(
			
 
				-    const struct ggml_compute_params * params,
			
 
				-    const struct ggml_tensor * src0,
			
 
				-    struct ggml_tensor * dst) {
			
 
				-
			
 
				-    if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
			
 
				-        return;
			
 
				-    }
			
 
				-
			
 
				-    GGML_ASSERT(src0->nb[0] == sizeof(float));
			
 
				-
			
 
				-    GGML_TENSOR_UNARY_OP_LOCALS;
			
 
				-
			
 
				-    // TODO: support for transposed / permuted tensors
			
 
				-    GGML_ASSERT(nb0  == sizeof(float));
			
 
				-    GGML_ASSERT(nb00 == sizeof(float));
			
 
				-    for (int i2 = 0; i2 < ne02; i2++) {
			
 
				-        for (int i1 = 1; i1 < ne01; i1++) {
			
 
				-            for (int i0 = 0; i0 < ne00; i0++) {
			
 
				-                const float * x = (float *)((char *) src0->data + i0 * nb00 + i1 * nb01 + i2 * nb02);
			
 
				-                float * y = (float *)((char *)dst->data + i0 * nb0 + (i1-1) * nb1 + i2 * nb2);
			
 
				-                *y = *x;
			
 
				-            }
			
 
				-        }
			
 
				-    }
			
 
				-}
			
 
				-
			
 
				-static void ggml_compute_forward_remove_head_row(
			
 
				-    const struct ggml_compute_params* params,
			
 
				-    const struct ggml_tensor* src0,
			
 
				-    struct ggml_tensor* dst) {
			
 
				-    switch (src0->type) {
			
 
				-        case GGML_TYPE_F32:
			
 
				-            {
			
 
				-                ggml_compute_forward_remove_head_row_f32(params, src0, dst);
			
 
				-            } break;
			
 
				-        default:
			
 
				-            {
			
 
				-                GGML_ASSERT(false);
			
 
				-            } break;
			
 
				-    }
			
 
				-}
			
 
				-
			
 
				-// ggml_compute_forward_get_first_cols_by_rows
			
 
				-
			
 
				-static void ggml_compute_forward_get_first_cols_by_rows_f32(
			
 
				-    const struct ggml_compute_params * params,
			
 
				-    const struct ggml_tensor * src0,
			
 
				-    struct ggml_tensor * dst) {
			
 
				-
			
 
				-    if (params->type == GGML_TASK_INIT || params->type == GGML_TASK_FINALIZE) {
			
 
				-        return;
			
 
				-    }
			
 
				-
			
 
				-    GGML_ASSERT(src0->nb[0] == sizeof(float));
			
 
				-
			
 
				-    GGML_TENSOR_UNARY_OP_LOCALS;
			
 
				-
			
 
				-    // TODO: support for transposed / permuted tensors
			
 
				-    GGML_ASSERT(nb0  == sizeof(float));
			
 
				-    GGML_ASSERT(nb00 == sizeof(float));
			
 
				-
			
 
				-    for (int i3 = 0; i3 < ne3; i3++) {
			
 
				-        for (int i2 = 0; i2 < ne2; i2++) {
			
 
				-            for (int i1 = 0; i1 < ne1; i1++) {
			
 
				-                for (int i0 = 0; i0 < ne1; i0++) {
			
 
				-                    const float * x = (float *)((char *) src0->data + i0 * nb00 + i1 * nb01 + i2 * nb02 + i3 * nb03);
			
 
				-                    float * y = (float *)((char *)dst->data + i0 * nb0 + i1 * nb1 + i2 * nb2 + i3 * nb3);
			
 
				-                    *y = *x;
			
 
				-                }
			
 
				-            }
			
 
				-        }
			
 
				-    }
			
 
				-}
			
 
				-
			
 
				-static void ggml_compute_forward_get_first_cols_by_rows(
			
 
				-    const struct ggml_compute_params* params,
			
 
				-    const struct ggml_tensor* src0,
			
 
				-    struct ggml_tensor* dst) {
			
 
				-    switch (src0->type) {
			
 
				-        case GGML_TYPE_F32:
			
 
				-            {
			
 
				-                ggml_compute_forward_get_first_cols_by_rows_f32(params, src0, dst);
			
 
				-            } break;
			
 
				-        default:
			
 
				-            {
			
 
				-                GGML_ASSERT(false);
			
 
				-            } break;
			
 
				-    }
			
 
				-}
			
 
				-
			
 
				 // ggml_compute_forward_abs
			
 
				 
			
 
				 static void ggml_compute_forward_abs_f32(
			
@@ -11679,11 +11583,13 @@ static bool ggml_compute_forward_mul_mat_use_blas(
 
				 
			
 
				     // TODO: find the optimal values for these
			
 
				     if (ggml_is_contiguous(src0) &&
			
 
				-        ggml_is_contiguous(src1) &&
			
 
				-        (ne0 >= 32 && ne1 >= 32 && ne10 >= 32)) {
			
 
				+        ggml_is_contiguous(src1)) {
			
 
				+
			
 
				+        bool big = (ne0 >= 32 && ne1 >= 32 && ne10 >= 32);
			
 
				+        big = big || (ne0 >= 512 && ne10 >= 512);
			
 
				 
			
 
				         /*printf("BLAS: %d %d %d %d %d\n", ne0, ne1, ne10, ne00, ne01);*/
			
 
				-        return true;
			
 
				+        return big;
			
 
				     }
			
 
				 
			
 
				     return false;
			
@@ -11786,11 +11692,17 @@ static void ggml_compute_forward_mul_mat(
 
				                     x = wdata;
			
 
				                 }
			
 
				 
			
 
				+                TracyCPlot("cblas_sgemm_B", ne13 * ne12);
			
 
				+                TracyCPlot("cblas_sgemm_M", ne11);
			
 
				+                TracyCPlot("cblas_sgemm_N", ne01);
			
 
				+                TracyCPlot("cblas_sgemm_K", ne10);
			
 
				+                TracyCZoneN(_tracy_sgemm, "cblas_sgemm", true);
			
 
				                 cblas_sgemm(CblasRowMajor, CblasNoTrans, CblasTrans,
			
 
				                         ne11, ne01, ne10,
			
 
				                         1.0f,    y, ne10,
			
 
				                                  x, ne00,
			
 
				                         0.0f,    d, ne01);
			
 
				+                TracyCZoneEnd(_tracy_sgemm);
			
 
				             }
			
 
				         }
			
 
				 
			
@@ -16823,332 +16735,472 @@ static void ggml_compute_forward(struct ggml_compute_params * params, struct ggm
 
				     switch (tensor->op) {
			
 
				         case GGML_OP_DUP:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_DUP", true);
			
 
				                 ggml_compute_forward_dup(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_ADD:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_ADD", true);
			
 
				                 ggml_compute_forward_add(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_ADD1:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_ADD1", true);
			
 
				                 ggml_compute_forward_add1(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_ACC:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_ACC", true);
			
 
				                 ggml_compute_forward_acc(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_SUB:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_SUB", true);
			
 
				                 ggml_compute_forward_sub(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_MUL:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_MUL", true);
			
 
				                 ggml_compute_forward_mul(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_DIV:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_DIV", true);
			
 
				                 ggml_compute_forward_div(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_SQR:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_SQR", true);
			
 
				                 ggml_compute_forward_sqr(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_SQRT:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_SQRT", true);
			
 
				                 ggml_compute_forward_sqrt(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_LOG:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_LOG", true);
			
 
				                 ggml_compute_forward_log(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_SUM:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_SUM", true);
			
 
				                 ggml_compute_forward_sum(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_SUM_ROWS:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_SUM_ROWS", true);
			
 
				                 ggml_compute_forward_sum_rows(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_MEAN:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_MEAN", true);
			
 
				                 ggml_compute_forward_mean(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_ARGMAX:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_ARGMAX", true);
			
 
				                 ggml_compute_forward_argmax(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_REPEAT:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_REPEAT", true);
			
 
				                 ggml_compute_forward_repeat(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_REPEAT_BACK:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_REPEAT_BACK", true);
			
 
				                 ggml_compute_forward_repeat_back(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_CONCAT:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CONCAT", true);
			
 
				                 ggml_compute_forward_concat(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				-        case GGML_OP_REMOVE_HEAD_ROW:
			
 
				-            {
			
 
				-                ggml_compute_forward_remove_head_row(params, tensor->src[0], tensor);
			
 
				-            } break;    
			
 
				-        case GGML_OP_GET_FIRST_COLS_BY_ROWS:
			
 
				-            {
			
 
				-                ggml_compute_forward_get_first_cols_by_rows(params, tensor->src[0], tensor);
			
 
				-            } break;      
			
 
				         case GGML_OP_SILU_BACK:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_SILU_BACK", true);
			
 
				                 ggml_compute_forward_silu_back(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_NORM:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_NORM", true);
			
 
				                 ggml_compute_forward_norm(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_BATCH_NORM:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_BATCH_NORM", true);
			
 
				                 ggml_compute_forward_batch_norm(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor->src[3], tensor->src[4], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_RMS_NORM:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_RMS_NORM", true);
			
 
				                 ggml_compute_forward_rms_norm(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_RMS_NORM_BACK:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_RMS_NORM_BACK", true);
			
 
				                 ggml_compute_forward_rms_norm_back(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_GROUP_NORM:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_GROUP_NORM", true);
			
 
				                 ggml_compute_forward_group_norm(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_MUL_MAT:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_MUL_MAT", true);
			
 
				                 ggml_compute_forward_mul_mat(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_OUT_PROD:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_OUT_PROD", true);
			
 
				                 ggml_compute_forward_out_prod(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_SCALE:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_SCALE", true);
			
 
				                 ggml_compute_forward_scale(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_SET:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_SET", true);
			
 
				                 ggml_compute_forward_set(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_CPY:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CPY", true);
			
 
				                 ggml_compute_forward_cpy(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_CONT:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CONT", true);
			
 
				                 ggml_compute_forward_cont(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_RESHAPE:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_RESHAPE", true);
			
 
				                 ggml_compute_forward_reshape(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_VIEW:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_VIEW", true);
			
 
				                 ggml_compute_forward_view(params, tensor->src[0]);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_PERMUTE:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_PERMUTE", true);
			
 
				                 ggml_compute_forward_permute(params, tensor->src[0]);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_TRANSPOSE:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_TRANSPOSE", true);
			
 
				                 ggml_compute_forward_transpose(params, tensor->src[0]);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_GET_ROWS:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_GET_ROWS", true);
			
 
				                 ggml_compute_forward_get_rows(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_GET_ROWS_BACK:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_GET_ROWS_BACK", true);
			
 
				                 ggml_compute_forward_get_rows_back(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_DIAG:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_DIAG", true);
			
 
				                 ggml_compute_forward_diag(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_DIAG_MASK_INF:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_DIAG_MASK_INF", true);
			
 
				                 ggml_compute_forward_diag_mask_inf(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_DIAG_MASK_ZERO:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_DIAG_MASK_ZERO", true);
			
 
				                 ggml_compute_forward_diag_mask_zero(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_SOFT_MAX:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_SOFT_MAX", true);
			
 
				                 ggml_compute_forward_soft_max(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_SOFT_MAX_BACK:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_SOFT_MAX_BACK", true);
			
 
				                 ggml_compute_forward_soft_max_back(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_ROPE:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_ROPE", true);
			
 
				                 ggml_compute_forward_rope(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_ROPE_BACK:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_ROPE_BACK", true);
			
 
				                 ggml_compute_forward_rope_back(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_ALIBI:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_ALIBI", true);
			
 
				                 ggml_compute_forward_alibi(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_CLAMP:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CLAMP", true);
			
 
				                 ggml_compute_forward_clamp(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_CONV_1D:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CONV_1D", true);
			
 
				                 ggml_compute_forward_conv_1d(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_CONV_1D_STAGE_0:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CONV_1D_STAGE_0", true);
			
 
				                 ggml_compute_forward_conv_1d_stage_0(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_CONV_1D_STAGE_1:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CONV_1D_STAGE_1", true);
			
 
				                 ggml_compute_forward_conv_1d_stage_1(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_CONV_1D_STAGE_2:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CONV_1D_STAGE_2", true);
			
 
				                 ggml_compute_forward_conv_1d_stage_2(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_CONV_1D_GENERIC:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CONV_1D_GENERIC", true);
			
 
				                 ggml_compute_forward_conv_1d_generic(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_CONV_1D_GENERIC_STAGE_0:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CONV_1D_GENERIC_STAGE_0", true);
			
 
				                 ggml_compute_forward_conv_1d_generic_stage_0(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_CONV_1D_GENERIC_STAGE_1:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CONV_1D_GENERIC_STAGE_1", true);
			
 
				                 ggml_compute_forward_conv_1d_generic_stage_1(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_CONV_2D:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CONV_2D", true);
			
 
				                 ggml_compute_forward_conv_2d(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_CONV_TRANSPOSE_2D:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CONV_TRANSPOSE_2D", true);
			
 
				                 ggml_compute_forward_conv_transpose_2d(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_POOL_1D:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_POOL_1D", true);
			
 
				                 ggml_compute_forward_pool_1d(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_POOL_2D:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_POOL_2D", true);
			
 
				                 ggml_compute_forward_pool_2d(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_UPSCALE:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_UPSCALE", true);
			
 
				                 ggml_compute_forward_upscale(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_FLASH_ATTN:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_FLASH_ATTN", true);
			
 
				                 const int32_t t = ggml_get_op_params_i32(tensor, 0);
			
 
				                 GGML_ASSERT(t == 0 || t == 1);
			
 
				                 const bool masked = t != 0;
			
 
				                 ggml_compute_forward_flash_attn(params, tensor->src[0], tensor->src[1], tensor->src[2], masked, tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_FLASH_FF:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_FLASH_FF", true);
			
 
				                 ggml_compute_forward_flash_ff(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor->src[3], tensor->src[4], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_FLASH_ATTN_BACK:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_FLASH_ATTN_BACK", true);
			
 
				                 int32_t t = ggml_get_op_params_i32(tensor, 0);
			
 
				                 GGML_ASSERT(t == 0 || t == 1);
			
 
				                 bool masked = t != 0;
			
 
				                 ggml_compute_forward_flash_attn_back(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor->src[3], masked, tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_WIN_PART:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_WIN_PART", true);
			
 
				                 ggml_compute_forward_win_part(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_WIN_UNPART:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_WIN_UNPART", true);
			
 
				                 ggml_compute_forward_win_unpart(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_UNARY:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_UNARY", true);
			
 
				                 ggml_compute_forward_unary(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_GET_REL_POS:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_GET_REL_POS", true);
			
 
				                 ggml_compute_forward_get_rel_pos(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_ADD_REL_POS:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_ADD_REL_POS", true);
			
 
				                 ggml_compute_forward_add_rel_pos(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             } break;
			
 
				         case GGML_OP_MAP_UNARY:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_MAP_UNARY", true);
			
 
				                 ggml_unary_op_f32_t fun;
			
 
				                 memcpy(&fun, tensor->op_params, sizeof(fun));
			
 
				                 ggml_compute_forward_map_unary(params, tensor->src[0], tensor, fun);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             }
			
 
				             break;
			
 
				         case GGML_OP_MAP_BINARY:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_MAP_BINARY", true);
			
 
				                 ggml_binary_op_f32_t fun;
			
 
				                 memcpy(&fun, tensor->op_params, sizeof(fun));
			
 
				                 ggml_compute_forward_map_binary(params, tensor->src[0], tensor->src[1], tensor, fun);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             }
			
 
				             break;
			
 
				         case GGML_OP_MAP_CUSTOM1_F32:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_MAP_CUSTOM1_F32", true);
			
 
				                 ggml_custom1_op_f32_t fun;
			
 
				                 memcpy(&fun, tensor->op_params, sizeof(fun));
			
 
				                 ggml_compute_forward_map_custom1_f32(params, tensor->src[0], tensor, fun);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             }
			
 
				             break;
			
 
				         case GGML_OP_MAP_CUSTOM2_F32:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_MAP_CUSTOM2_F32", true);
			
 
				                 ggml_custom2_op_f32_t fun;
			
 
				                 memcpy(&fun, tensor->op_params, sizeof(fun));
			
 
				                 ggml_compute_forward_map_custom2_f32(params, tensor->src[0], tensor->src[1], tensor, fun);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             }
			
 
				             break;
			
 
				         case GGML_OP_MAP_CUSTOM3_F32:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_MAP_CUSTOM3_F32", true);
			
 
				                 ggml_custom3_op_f32_t fun;
			
 
				                 memcpy(&fun, tensor->op_params, sizeof(fun));
			
 
				                 ggml_compute_forward_map_custom3_f32(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor, fun);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             }
			
 
				             break;
			
 
				         case GGML_OP_MAP_CUSTOM1:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_MAP_CUSTOM1", true);
			
 
				                 ggml_compute_forward_map_custom1(params, tensor->src[0], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             }
			
 
				             break;
			
 
				         case GGML_OP_MAP_CUSTOM2:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_MAP_CUSTOM2", true);
			
 
				                 ggml_compute_forward_map_custom2(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             }
			
 
				             break;
			
 
				         case GGML_OP_MAP_CUSTOM3:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_MAP_CUSTOM3", true);
			
 
				                 ggml_compute_forward_map_custom3(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             }
			
 
				             break;
			
 
				         case GGML_OP_CROSS_ENTROPY_LOSS:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CROSS_ENTROPY_LOSS", true);
			
 
				                 ggml_compute_forward_cross_entropy_loss(params, tensor->src[0], tensor->src[1], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             }
			
 
				             break;
			
 
				         case GGML_OP_CROSS_ENTROPY_LOSS_BACK:
			
 
				             {
			
 
				+                TracyCZoneN(__tracy_ctx, "GGML_OP_CROSS_ENTROPY_LOSS_BACK", true);
			
 
				                 ggml_compute_forward_cross_entropy_loss_back(params, tensor->src[0], tensor->src[1], tensor->src[2], tensor);
			
 
				+                TracyCZoneEnd(__tracy_ctx);
			
 
				             }
			
 
				             break;
			
 
				         case GGML_OP_NONE:
			
@@ -17358,14 +17410,6 @@ static void ggml_compute_backward(struct ggml_context * ctx, struct ggml_tensor
 
				             {
			
 
				                 GGML_ASSERT(false); // TODO: implement
			
 
				             } break;
			
 
				-        case GGML_OP_REMOVE_HEAD_ROW:
			
 
				-            {
			
 
				-                GGML_ASSERT(false); // TODO: implement
			
 
				-            } break;
			
 
				-        case GGML_OP_GET_FIRST_COLS_BY_ROWS:
			
 
				-            {
			
 
				-                GGML_ASSERT(false); // TODO: implement
			
 
				-            } break;
			
 
				         case GGML_OP_SILU_BACK:
			
 
				             {
			
 
				                 GGML_ASSERT(false); // TODO: not implemented
			
@@ -19019,13 +19063,17 @@ void ggml_graph_reset(struct ggml_cgraph * cgraph) {
 
				 }
			
 
				 
			
 
				 void ggml_graph_compute_with_ctx(struct ggml_context * ctx, struct ggml_cgraph * cgraph, int n_threads) {
			
 
				+    TracyCZoneN(_tracy_graph, "ggml_graph_plan", true);
			
 
				     struct ggml_cplan cplan = ggml_graph_plan(cgraph, n_threads);
			
 
				+    TracyCZoneEnd(_tracy_graph);
			
 
				 
			
 
				     struct ggml_object * obj = ggml_new_object(ctx, GGML_OBJECT_WORK_BUFFER, cplan.work_size);
			
 
				 
			
 
				     cplan.work_data = (uint8_t *)ctx->mem_buffer + obj->offs;
			
 
				 
			
 
				+    TracyCZoneN(_tracy_compute, "ggml_graph_compute", true);
			
 
				     ggml_graph_compute(cgraph, &cplan);
			
 
				+    TracyCZoneEnd(_tracy_compute);
			
 
				 }
			
 
				 
			
 
				 struct ggml_tensor * ggml_graph_get_tensor(struct ggml_cgraph * cgraph, const char * name) {
			
--- a/ggml/test_data/test.wav
+++ b/ggml/test_data/test.wav
--- a/ggml/test_unity_cpp.py
+++ b/ggml/test_unity_cpp.py
@@ -8,6 +8,7 @@ from typing import Any, Iterator, List, Tuple
 
				 
			
 
				 import fairseq2.nn
			
 
				 import fairseq2.nn.transformer
			
 
				+from fairseq2.nn.padding import PaddingMask
			
 
				 import numpy as np
			
 
				 import pytest
			
 
				 import torch
			
@@ -22,7 +23,6 @@ from ctypes_utils import NULLPTR, Ptr
 
				 from ggml import NativeObj
			
 
				 from ggml_convert import convert_model, read_layer_config
			
 
				 
			
 
				-
			
 
				 Ctx = ggml.ggml_context_p
			
 
				 
			
 
				 UNITY_MODELS = Path(__file__).parent / "examples/unity/models"
			
@@ -31,7 +31,7 @@ CTX_PARAMS = ggml.ggml_init_params(mem_size=1024 * 1024 * 1024 * 5, mem_buffer=N
 
				 FAIRSEQ2_CPP = Path(__file__).parent / "examples/unity/fairseq2.cpp"
			
 
				 UNITY_FLASH_ATTN = "\n# define UNITY_FLASH_ATTN 0\n" not in FAIRSEQ2_CPP.read_text()
			
 
				 
			
 
				-DATA = Path(__file__).parent
			
 
				+DATA = Path(__file__).parent / "test_data"
			
 
				 DATA_DEV = DATA / "dev"
			
 
				 if not DATA_DEV.exists():
			
 
				     DATA_DEV = Path(
			
@@ -329,7 +329,9 @@ def test_MultiheadAttention_forward_cross_attn_with_cache(
 
				                 assert np.allclose(
			
 
				                     state.get()[0].transpose(1, 2).numpy(),
			
 
				                     ggml.to_numpy(
			
 
				-                        nodes[b"text_decoder.layers.0.encoder_decoder_attn.k_cache (view)"]
			
 
				+                        nodes[
			
 
				+                            b"text_decoder.layers.0.encoder_decoder_attn.k_cache (view)"
			
 
				+                        ]
			
 
				                     ),
			
 
				                     atol=1e-3,
			
 
				                 )
			
@@ -378,7 +380,8 @@ def test_StandardConformerEncoderLayer_forward(ctx: Ctx, g_model: c_void_p) -> N
 
				         pytest.skip(reason=f"Folder {DATA_DEV} not found !")
			
 
				 
			
 
				     x = torch.load(DATA_DEV / "seqs_before_conformer_block.pt")
			
 
				-    padding_mask = torch.ones((1, x.shape[1]))
			
 
				+    padding_mask = PaddingMask(torch.ones(1, x.shape[1]),x.shape[1])
			
 
				+
			
 
				     layer = pt_model.speech_encoder.inner.layers[0]
			
 
				     gx = ggml.from_numpy(ctx, x[0])
			
 
				     ggml.ggml_set_name(gx, b"x")
			
@@ -477,25 +480,32 @@ def test_StandardConformerEncoder_forward(ctx: Ctx, g_model: c_void_p) -> None:
 
				     gf = ggml.ggml_build_forward(gy)
			
 
				     ggml.ggml_graph_compute_with_ctx(ctx, ctypes.pointer(gf), 1)
			
 
				 
			
 
				-    converter = WaveformToFbankConverter(
			
 
				-        num_mel_bins=80,
			
 
				-        waveform_scale=2**15,
			
 
				-        channel_last=True,
			
 
				-        standardize=True,
			
 
				-    )
			
 
				-    converter_input = {
			
 
				-        "waveform": wav.transpose(0, 1),
			
 
				-        "sample_rate": 16000.0,
			
 
				-        "format": -1,
			
 
				-    }
			
 
				-
			
 
				     y = ggml.to_numpy(gy)
			
 
				-    speech_encoder_input = pt_model.speech_encoder_frontend(
			
 
				-        converter(converter_input)["fbank"].unsqueeze(0), None
			
 
				-    )[0]
			
 
				 
			
 
				-    y_exp, _ = pt_model.speech_encoder(speech_encoder_input, None)
			
 
				-    y_exp = y_exp.numpy()  # remove batch dimension
			
 
				+    cache = DATA / "test_StandardConformerEncoder_forward.npy"
			
 
				+    if not cache.exists():
			
 
				+        converter = WaveformToFbankConverter(
			
 
				+            num_mel_bins=80,
			
 
				+            waveform_scale=2**15,
			
 
				+            channel_last=True,
			
 
				+            standardize=True,
			
 
				+        )
			
 
				+        converter_input = {
			
 
				+            "waveform": wav.transpose(0, 1),
			
 
				+            "sample_rate": 16000.0,
			
 
				+            "format": -1,
			
 
				+        }
			
 
				+
			
 
				+        pt_model = load_pt_model()
			
 
				+        speech_encoder_input = pt_model.speech_encoder_frontend(
			
 
				+            converter(converter_input)["fbank"].unsqueeze(0), None
			
 
				+        )[0]
			
 
				+
			
 
				+        y_exp, _ = pt_model.speech_encoder(speech_encoder_input, None)
			
 
				+        y_exp = y_exp.numpy()
			
 
				+        np.save(cache, y_exp)
			
 
				+    else:
			
 
				+        y_exp = np.load(cache)
			
 
				 
			
 
				     assert y.shape == y_exp.shape
			
 
				     assert np.allclose(
			
@@ -512,7 +522,7 @@ def test_WaveformToFbank_forward(ctx: Ctx, g_model: c_void_p) -> None:
 
				         standardize=True,
			
 
				     )
			
 
				     extractor = Wav2Vec2FbankFeatureExtractor(80, stride=2, sample_every_k=1)
			
 
				-    wav, _ = torchaudio.load(DATA / "test.wav")
			
 
				+    wav, _ = torchaudio.load(DATA / "LJ037-0171_sr16k_test.wav")
			
 
				     gx = ggml.from_numpy(ctx, wav * 2**15)  # Apply scale before sending into ggml!
			
 
				     ggml.ggml_set_name(gx, b"x")
			
 
				 
			
@@ -540,7 +550,7 @@ def test_PositionalEmbedding_forward(ctx: Ctx, g_model: c_void_p) -> None:
 
				     pos_encoder = fairseq2.nn.SinusoidalPositionEncoder(1024, 55, _legacy_pad_idx=0)
			
 
				     y_exp = pos_encoder(seq, None)[0].numpy()
			
 
				 
			
 
				-    gseq = ggml.from_numpy(ctx, seq[0].numpy())
			
 
				+    gseq = ggml.from_numpy(ctx, seq[0].clone().numpy())
			
 
				     ggml.ggml_set_name(gseq, b"seq")
			
 
				     gy = ggml.forward(
			
 
				         "PositionalEmbedding", g_model, "text_decoder_frontend.pos_encoder", gseq
			
@@ -633,6 +643,32 @@ def test_StandardTransformerDecoder_forward(ctx: Ctx, g_model: c_void_p) -> None
 
				     assert np.allclose(y_exp, y, atol=1e-4 if UNITY_FLASH_ATTN else 1e-3)
			
 
				 
			
 
				 
			
 
				+def test_tokenizer(ctx: Ctx) -> None:
			
 
				+    tokenizer = unity.load_unity_text_tokenizer("seamlessM4T_medium")
			
 
				+    enc = tokenizer.create_encoder(task="translation", lang="eng", mode="source")
			
 
				+
			
 
				+    spm_path = DATA / "seamlessM4T_medium.spm.ggml"
			
 
				+    # if not spm_path.exists():
			
 
				+    if True:
			
 
				+        vocab = ggml_convert.read_vocab(tokenizer)
			
 
				+        ggml_convert.write_ggml_file(spm_path, {"spm_vocab_only": True}, {}, vocab, {})
			
 
				+
			
 
				+    g_model = ggml.load_fairseq2_ggml_file(spm_path)
			
 
				+    ggml.lib.fairseq2_model_set_inference_ctx(g_model.ptr, ctx)
			
 
				+
			
 
				+    expected = enc("We are all in a yellow submarine.").tolist()[1:]
			
 
				+    tokens = ggml.ggml_new_tensor_1d(ctx, ggml.GGML_TYPE_I32, 256)
			
 
				+    ggml.fairseq2_spm_tokenize(
			
 
				+        g_model.ptr, b"We are all in a yellow submarine.", tokens
			
 
				+    )
			
 
				+    res = ggml.to_numpy(tokens).tolist()
			
 
				+    assert expected == res
			
 
				+
			
 
				+    out = ctypes.create_string_buffer(144)
			
 
				+    ggml.fairseq2_spm_detokenize(g_model.ptr, tokens, out)
			
 
				+    assert ctypes.string_at(out) == b"We are all in a yellow submarine."
			
 
				+
			
 
				+
			
 
				 def test_t2tt(ctx: Ctx, g_model: c_void_p) -> None:
			
 
				     src_lang = "eng"
			
 
				     src_text = "We are all in a yellow submarine."
			
@@ -700,6 +736,7 @@ def test_t2tt(ctx: Ctx, g_model: c_void_p) -> None:
 
				         unk_idx=1,
			
 
				         bos_idx=2,
			
 
				         eos_idx=3,
			
 
				+        num_threads=16,
			
 
				     )
			
 
				 
			
 
				     result_ptr = ggml.generate_sequence(g_model, job, encoder_out, NULLPTR, ctx)
			
@@ -789,9 +826,7 @@ def test_s2tt(ctx: Ctx, g_model: c_void_p):
 
				     )
			
 
				     result_ptr = ggml.generate_sequence(g_model, Ptr(job), encoder_out, NULLPTR, ctx)
			
 
				     results = [result_ptr[i] for i in range(beam_size) if result_ptr[i].seq != None]
			
 
				-    assert_hypotheses(
			
 
				-        exp["hypotheses"], results, score_rtol=1e-2, step_scores_rtol=0.1
			
 
				-    )
			
 
				+    assert_hypotheses(exp["hypotheses"], results, score_rtol=1e-2, step_scores_rtol=0.1)
			
 
				 
			
 
				 
			
 
				 def assert_hypotheses(
			
--- a/ggml/third_party_ggml.py
+++ b/ggml/third_party_ggml.py
@@ -774,7 +774,7 @@ class ggml_init_params(ctypes.Structure):
 
				     """
			
 
				 
			
 
				     _fields_ = [
			
 
				-        ("mem_size", ctypes.c_size_t),
			
 
				+        ("mem_size", ctypes.c_int64),
			
 
				         ("mem_buffer", ctypes.c_void_p),
			
 
				         ("no_alloc", ctypes.c_bool),
			
 
				     ]
			
@@ -1257,7 +1257,7 @@ def ggml_get_mem_size(ctx: ggml_context_p) -> int:
 
				 
			
 
				 
			
 
				 lib.ggml_get_mem_size.argtypes = [ggml_context_p]
			
 
				-lib.ggml_get_mem_size.restype = ctypes.c_size_t
			
 
				+lib.ggml_get_mem_size.restype = ctypes.c_int64
			
 
				 
			
 
				 
			
 
				 # GGML_API size_t  ggml_get_max_tensor_size(const struct ggml_context * ctx);
			
--- a/src/seamless_communication/inference/translator.py
+++ b/src/seamless_communication/inference/translator.py
@@ -142,7 +142,7 @@ class Translator(nn.Module):
 
				             dtype=dtype,
			
 
				         )
			
 
				         self.collate = Collater(
			
 
				-            pad_value=self.text_tokenizer.vocab_info.pad_idx, pad_to_multiple=2
			
 
				+            pad_value=self.text_tokenizer.vocab_info.pad_idx or 0, pad_to_multiple=2
			
 
				         )
			
 
				         self.vocoder = None
			
 
				         if vocoder_name_or_card is not None and (