2 years ago · e1faba0c5d
--- a/ggml/examples/unity/fairseq2.cpp
+++ b/ggml/examples/unity/fairseq2.cpp
@@ -228,3 +228,27 @@ extern "C" ggml_tensor* StandardTransformerEncoderLayer_forward(
 
															     return seqs;
														
 
															 }
														
 
															+
														
 
															+
														
 
															+extern "C" ggml_tensor* StandardTransformerEncoder_forward(
														
 
															+    fairseq2_model& model,
														
 
															+    const std::string& prefix,
														
 
															+    ggml_tensor* seqs,
														
 
															+    ggml_tensor* padding_mask
														
 
															+) {
														
 
															+    int layer_idx = 0;
														
 
															+    // TODO: this isn't nice.
														
 
															+    // When loading model we should add nullptr for the module key to avoid those concatenation.
														
 
															+    while (has_layer(model, prefix + ".layers." + std::to_string(layer_idx)  + ".self_attn_layer_norm.weight")) {
														
 
															+        seqs = StandardTransformerEncoderLayer_forward(
														
 
															+            model, prefix + ".layers." + std::to_string(layer_idx), seqs, padding_mask
														
 
															+        );
														
 
															+        ggml_set_name(seqs, ("x_" + std::to_string(layer_idx)).c_str());
														
 
															+        layer_idx += 1;
														
 
															+    }
														
 
															+
														
 
															+    if (has_layer(model, prefix + ".layer_norm.weight"))
														
 
															+        seqs = LayerNorm_forward(model, prefix + ".layer_norm", seqs);
														
 
															+
														
 
															+    return seqs;
														
 
															+}
														
--- a/ggml/test_unity_cpp.py
+++ b/ggml/test_unity_cpp.py
@@ -17,14 +17,14 @@ from seamless_communication.models.unity import load_unity_model
 
															 Ctx = ggml.ggml_context_p
														
 
															 UNITY_MODELS = Path(__file__).parent / "examples/unity/models"
														
 
															-PARAMS_16MB = ggml.ggml_init_params(mem_size=16 * 1024 * 1024, mem_buffer=None)
														
 
															+PARAMS_256MB = ggml.ggml_init_params(mem_size=256 * 1024 * 1024, mem_buffer=None)
														
 
															 @pytest.fixture(name="ctx")
														
 
															 def _ctx() -> Iterator[Ctx]:
														
 
															-    """Allocate a new context with 16 MB of memory"""
														
 
															+    """Allocate a new context with 256 MB of memory"""
														
 
															     try:
														
 
															-        ctx = ggml.ggml_init(params=PARAMS_16MB)
														
 
															+        ctx = ggml.ggml_init(params=PARAMS_256MB)
														
 
															         yield ctx
														
 
															     finally:
														
 
															         ggml.ggml_free(ctx)
														
@@ -422,7 +422,7 @@ def test_forward_self_attn(ctx: Ctx, g_model: c_void_p, pt_model: Any) -> None:
 
															         gxq,
														
 
															         gx,
														
 
															         gx,
														
 
															-        ctypes.pointer(),  # TODO: tests with causal attention masks
														
 
															+        None,  # TODO: tests with causal attention masks
														
 
															     )
														
 
															     gf = ggml.ggml_build_forward(gy)
														
 
															     ggml.ggml_graph_compute_with_ctx(ctx, ctypes.pointer(gf), 1)
														
@@ -504,3 +504,34 @@ def test_StandardTransformerEncoderLayer_forward(
 
															     assert y.shape == y_exp.shape
														
 
															     assert np.allclose(y_exp, y, atol=1e-4)
														
 
															+
														
 
															+
														
 
															+def test_StandardTransformerEncoder_forward(
														
 
															+    ctx: Ctx, g_model: c_void_p, pt_model: Any
														
 
															+) -> None:
														
 
															+    x = torch.empty((1, 21, 1024))
														
 
															+    padding_mask = torch.ones((1, 21))
														
 
															+    torch.random.manual_seed(0)
														
 
															+    torch.nn.init.uniform_(x, -1, 1)
														
 
															+
														
 
															+    gx = ggml.from_numpy(ctx, x[0])
														
 
															+    ggml.ggml_set_name(gx, b"x")
														
 
															+    gpad = ggml.from_numpy(ctx, padding_mask[0])
														
 
															+    ggml.ggml_set_name(gpad, b"padding_mask")
														
 
															+    gy = ggml.forward(
														
 
															+        "StandardTransformerEncoder",
														
 
															+        g_model,
														
 
															+        "text_encoder",
														
 
															+        gx,
														
 
															+        None,  # TODO support padding mask
														
 
															+    )
														
 
															+    gf = ggml.ggml_build_forward(gy)
														
 
															+    ggml.ggml_graph_compute_with_ctx(ctx, ctypes.pointer(gf), 1)
														
 
															+
														
 
															+    y = ggml.to_numpy(gy)
														
 
															+
														
 
															+    y_exp, _ = pt_model.text_encoder(x, padding_mask)
														
 
															+    y_exp = y_exp.squeeze(0).numpy()  # remove batch dimension
														
 
															+
														
 
															+    assert y.shape == y_exp.shape
														
 
															+    assert np.allclose(y_exp, y, atol=1e-4)