2 years ago · 625b69883d
--- a/ggml/examples/unity/convert-pt-to-ggml.py
+++ b/ggml/examples/unity/convert-pt-to-ggml.py
@@ -71,7 +71,7 @@ for name in list_vars.keys():
 
															     str_ = state_map[name].encode('utf-8')
														
 
															     fout.write(struct.pack("iii", n_dims, len(str_), ftype))
														
 
															     for i in range(n_dims):
														
 
															-        fout.write(struct.pack("i", data.shape[i]))
														
 
															+        fout.write(struct.pack("i", data.shape[n_dims-1-i]))
														
 
															     fout.write(str_)
														
 
															     # data
														
--- a/ggml/examples/unity/unity.cpp
+++ b/ggml/examples/unity/unity.cpp
@@ -261,14 +261,14 @@ bool unity_model_load(const std::string & fname, unity_model & model, gpt_vocab
 
															             layer.self_attn_linear_out_b   = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, n_audio_enc_dim);
														
 
															             layer.self_attn_linear_pos_w   = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_dim, n_audio_enc_dim);
														
 
															-            layer.self_attn_pos_bias_u = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_head, n_audio_enc_dim / n_audio_enc_head);
														
 
															-            layer.self_attn_pos_bias_v = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_head, n_audio_enc_dim / n_audio_enc_head);
														
 
															+            layer.self_attn_pos_bias_u = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_dim / n_audio_enc_head, n_audio_enc_head);
														
 
															+            layer.self_attn_pos_bias_v = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_dim / n_audio_enc_head, n_audio_enc_head);
														
 
															             layer.conv_layer_norm_w = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, n_audio_enc_dim);
														
 
															             layer.conv_layer_norm_b = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, n_audio_enc_dim);
														
 
															-            layer.conv_pointwise_conv1_w = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, 2*n_audio_enc_dim, n_audio_enc_dim);
														
 
															-            layer.conv_depthwise_conv_w = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_dim, 31);
														
 
															+            layer.conv_pointwise_conv1_w = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_dim, 2*n_audio_enc_dim);
														
 
															+            layer.conv_depthwise_conv_w = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, 31, n_audio_enc_dim);
														
 
															             layer.conv_batch_norm_w = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, n_audio_enc_dim);
														
 
															             layer.conv_batch_norm_b = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, n_audio_enc_dim);
														
@@ -281,19 +281,19 @@ bool unity_model_load(const std::string & fname, unity_model & model, gpt_vocab
 
															             layer.ffn1_layer_norm_w = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, n_audio_enc_dim);
														
 
															             layer.ffn1_layer_norm_b = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, n_audio_enc_dim);
														
 
															-            layer.ffn1_w1 = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_ffn_dim, n_audio_enc_dim);
														
 
															+            layer.ffn1_w1 = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_dim, n_audio_enc_ffn_dim);
														
 
															             layer.ffn1_b1 = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, n_audio_enc_ffn_dim);
														
 
															-            layer.ffn1_w2 = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_dim, n_audio_enc_ffn_dim);
														
 
															+            layer.ffn1_w2 = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_ffn_dim, n_audio_enc_dim);
														
 
															             layer.ffn1_b2 = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, n_audio_enc_dim);
														
 
															             layer.ffn2_layer_norm_w = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, n_audio_enc_dim);
														
 
															             layer.ffn2_layer_norm_b = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, n_audio_enc_dim);
														
 
															-            layer.ffn2_w1 = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_ffn_dim, n_audio_enc_dim);
														
 
															+            layer.ffn2_w1 = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_dim, n_audio_enc_ffn_dim);
														
 
															             layer.ffn2_b1 = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, n_audio_enc_ffn_dim);
														
 
															-            layer.ffn2_w2 = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_dim, n_audio_enc_ffn_dim);
														
 
															+            layer.ffn2_w2 = ggml_new_tensor_2d(ctx, GGML_TYPE_F32, n_audio_enc_ffn_dim, n_audio_enc_dim);
														
 
															             layer.ffn2_b2 = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, n_audio_enc_dim);
														
 
															             layer.final_layer_norm_w = ggml_new_tensor_1d(ctx, GGML_TYPE_F32, n_audio_enc_dim);
														
@@ -456,25 +456,80 @@ struct ggml_cgraph * unity_graph(
 
															     struct ggml_tensor * inpL = ggml_new_tensor_2d(ctx0, GGML_TYPE_F32, 1024, 137);
														
 
															     inpL->data = malloc(ggml_nbytes(inpL));
														
 
															     file.read(reinterpret_cast<char *>(inpL->data), ggml_nbytes(inpL));
														
 
															+    struct ggml_tensor * ffn_scale = ggml_new_tensor_2d(ctx0, GGML_TYPE_F32, 1, 1);
														
 
															+    ffn_scale->data = malloc(ggml_nbytes(ffn_scale));
														
 
															+    ggml_set_f32(ffn_scale, 0.5f);
														
 
															     for (int il = 0; il < n_audio_enc_layer; ++il) {
														
 
															         struct ggml_tensor * cur = inpL;
														
 
															+        struct ggml_tensor * residual = cur;
														
 
															+        const audio_enc_layer layer = model.audio_enc_layers[il];
														
 
															+        // FFN1: layernorm
														
 
															         cur = ggml_norm(ctx0, cur, hparams.eps);
														
 
															         cur = ggml_add(ctx0,
														
 
															                 ggml_mul(ctx0,
														
 
															-                    ggml_repeat(ctx0, model.audio_enc_layers[il].ffn1_layer_norm_w, cur),
														
 
															+                    ggml_repeat(ctx0, layer.ffn1_layer_norm_w, cur),
														
 
															                     cur),
														
 
															-                ggml_repeat(ctx0, model.audio_enc_layers[il].ffn1_layer_norm_b, cur));
														
 
															+                ggml_repeat(ctx0, layer.ffn1_layer_norm_b, cur));
														
 
															+        // FFN1: proj
														
 
															+        cur = ggml_mul_mat(ctx0, layer.ffn1_w1, cur);
														
 
															+        cur = ggml_add(ctx0, ggml_repeat(ctx0, layer.ffn1_b1, cur), cur);
														
 
															+        cur = ggml_silu(ctx0, cur);
														
 
															+        cur = ggml_mul_mat(ctx0, layer.ffn1_w2, cur);
														
 
															+        cur = ggml_add(ctx0, ggml_repeat(ctx0, layer.ffn1_b2, cur), cur);
														
 
															+        // FFN1: * 0.5
														
 
															+        cur = ggml_mul(ctx0, ggml_repeat(ctx0, ffn_scale, cur), cur);
														
 
															+        // FFN1: + residual
														
 
															+        cur = ggml_add(ctx0, cur, residual);
														
 
															+
														
 
															+        // TODO: Opportunity to optimize attn calculation (1) For num_threads > 1 (2) Flash attn. See https://github.com/ggerganov/ggml/blob/main/examples/gpt-2/main.cpp 
														
 
															+
														
 
															+        // self_attn: layernorm
														
 
															+        cur = ggml_norm(ctx0, cur, hparams.eps);
														
 
															+        cur = ggml_add(ctx0,
														
 
															+                ggml_mul(ctx0,
														
 
															+                    ggml_repeat(ctx0, layer.self_attn_layer_norm_w, cur),
														
 
															+                    cur),
														
 
															+                ggml_repeat(ctx0, layer.self_attn_layer_norm_b, cur));
														
 
															-        // self_attn
														
 
															+        // self_attn: qkv
														
 
															+        struct ggml_tensor * Qcur = ggml_mul_mat(ctx0,
														
 
															+                layer.self_attn_linear_q_w,
														
 
															+                cur);
														
 
															+
														
 
															+        Qcur = ggml_add(ctx0,
														
 
															+                ggml_repeat(ctx0,
														
 
															+                    layer.self_attn_linear_q_b,
														
 
															+                    Qcur),
														
 
															+                Qcur);
														
 
															+
														
 
															+        struct ggml_tensor * Kcur = ggml_mul_mat(ctx0,
														
 
															+                layer.self_attn_linear_k_w,
														
 
															+                cur);
														
 
															+        Kcur = ggml_add(ctx0,
														
 
															+                ggml_repeat(ctx0,
														
 
															+                    layer.self_attn_linear_k_b,
														
 
															+                    Kcur),
														
 
															+                Kcur);
														
 
															+
														
 
															+        struct ggml_tensor * Vcur = ggml_mul_mat(ctx0,
														
 
															+                layer.self_attn_linear_v_w,
														
 
															+                cur);
														
 
															+
														
 
															+        Vcur = ggml_add(ctx0,
														
 
															+                ggml_repeat(ctx0,
														
 
															+                    layer.self_attn_linear_v_b,
														
 
															+                    Vcur),
														
 
															+                Vcur);
														
 
															+        // self_attn: rel_pos SDPA
														
 
															         // conv
														
 
															         // ffn2
														
 
															         // norm
														
 
															-        
														
 
															         inpL = cur;
														
 
															+        break; // debug
														
 
															     }
														
 
															     ggml_build_forward_expand(gf, inpL);