2 years ago · be236b8584
--- a/ggml/examples/unity/fairseq2.cpp
+++ b/ggml/examples/unity/fairseq2.cpp
@@ -31,33 +31,7 @@ extern "C" void std_string_free(std::string* str) {
 
				 }
			
 
				 
			
 
				 
			
 
				-
			
 
				-// Linear
			
 
				-
			
 
				-std::size_t Linear_size(int32_t input_dim, int32_t output_dim)
			
 
				-{
			
 
				-    return (input_dim * output_dim * ggml_type_size(GGML_TYPE_F32)) // weight
			
 
				-        + (output_dim * ggml_type_size(GGML_TYPE_F32)); // bias
			
 
				-};
			
 
				-
			
 
				-void Linear_init(
			
 
				-    Linear& self,
			
 
				-    fairseq2_model& model,
			
 
				-    const std::string &prefix,
			
 
				-    int input_dim,
			
 
				-    int output_dim,
			
 
				-    bool bias
			
 
				-) {
			
 
				-    self.weight = ggml_new_tensor_2d(model.ctx, GGML_TYPE_F32, output_dim, input_dim);
			
 
				-    model.tensors[prefix + ".weight"] = self.weight;
			
 
				-    if (bias) {
			
 
				-        self.bias = ggml_new_tensor_1d(model.ctx, GGML_TYPE_F32, output_dim);
			
 
				-        model.tensors[prefix + ".inner_proj.bias"] = self.bias;
			
 
				-    }
			
 
				-}
			
 
				-
			
 
				-extern "C" ggml_tensor*
			
 
				-Linear_forward(
			
 
				+extern "C" ggml_tensor* Linear_forward(
			
 
				     fairseq2_model& model,
			
 
				     const std::string &prefix,
			
 
				     ggml_tensor* input  // (d_in)
			
@@ -73,25 +47,6 @@ Linear_forward(
 
				     );
			
 
				 }
			
 
				 
			
 
				-// LayerNorm
			
 
				-
			
 
				-std::size_t LayerNorm_size(int32_t dim)
			
 
				-{
			
 
				-    return 2 * dim * ggml_type_size(GGML_TYPE_F32); // weight and bias
			
 
				-};
			
 
				-
			
 
				-void LayerNorm_init(
			
 
				-    LayerNorm& self,
			
 
				-    fairseq2_model& model,
			
 
				-    const std::string &prefix,
			
 
				-    int dim
			
 
				-) {
			
 
				-    self.weight = ggml_new_tensor_1d(model.ctx, GGML_TYPE_F32, dim);
			
 
				-    model.tensors[prefix + ".weight"] = self.weight;
			
 
				-    self.bias = ggml_new_tensor_1d(model.ctx, GGML_TYPE_F32, dim);
			
 
				-    model.tensors[prefix + ".bias"] = self.bias;
			
 
				-}
			
 
				-
			
 
				 extern "C" ggml_tensor* LayerNorm_forward(
			
 
				     fairseq2_model& model,
			
 
				     const std::string &prefix,
			
@@ -110,23 +65,6 @@ extern "C" ggml_tensor* LayerNorm_forward(
 
				 }
			
 
				 
			
 
				 
			
 
				-std::size_t StandardFeedForwardNetwork_size(int32_t dim, int32_t inner_dim)
			
 
				-{
			
 
				-    return LayerNorm_size(dim) + Linear_size(dim, inner_dim) + Linear_size(inner_dim, dim);
			
 
				-};
			
 
				-
			
 
				-void StandardFeedForwardNetwork_init(
			
 
				-    StandardFeedForwardNetwork& self,
			
 
				-    fairseq2_model& model,
			
 
				-    const std::string &prefix,
			
 
				-    int model_dim,
			
 
				-    int inner_dim
			
 
				-) {
			
 
				-    Linear_init(self.inner_proj, model, prefix + ".inner_proj", model_dim, inner_dim, true);
			
 
				-    LayerNorm_init(self.inner_layer_norm, model, prefix + ".inner_layer_norm", inner_dim);
			
 
				-    Linear_init(self.output_proj, model, prefix + ".output_proj", inner_dim, model_dim, true);
			
 
				-}
			
 
				-
			
 
				 extern "C" ggml_tensor* StandardFeedForwardNetwork_forward(
			
 
				     fairseq2_model& model,
			
 
				     const std::string& prefix,
			
@@ -147,26 +85,6 @@ extern "C" ggml_tensor* StandardFeedForwardNetwork_forward(
 
				     return seqs;
			
 
				 }
			
 
				 
			
 
				-void MultiheadAttention_init(
			
 
				-    MultiheadAttention& self,
			
 
				-    fairseq2_model& model,
			
 
				-    const std::string &prefix,
			
 
				-    int model_dim,
			
 
				-    int num_heads
			
 
				-) {
			
 
				-    int bias = true;
			
 
				-    int num_key_value_heads = num_heads;
			
 
				-    int head_dim = model_dim / num_heads;
			
 
				-
			
 
				-    Linear_init(self.q_proj, model, prefix + ".q_proj", model_dim, model_dim, bias);
			
 
				-    Linear_init(self.k_proj, model, prefix + ".k_proj", model_dim, head_dim * num_key_value_heads, bias);
			
 
				-    Linear_init(self.v_proj, model, prefix + ".v_proj", model_dim, model_dim, bias);
			
 
				-
			
 
				-    // (H, 1, K_h)
			
 
				-    self.bias_k = ggml_new_tensor_3d(model.ctx, GGML_TYPE_F32, num_heads, 1, head_dim * num_key_value_heads/ num_heads);
			
 
				-    // (H, 1, V_h)
			
 
				-    self.bias_v = ggml_new_tensor_3d(model.ctx, GGML_TYPE_F32, num_heads, 1, model_dim / num_heads);
			
 
				-}
			
 
				 
			
 
				 ggml_tensor* reshape_num_head(ggml_context* ctx, ggml_tensor* x, int num_heads) {
			
 
				     int slen = x->ne[1];
			
@@ -179,9 +97,8 @@ ggml_tensor* reshape_num_head(ggml_context* ctx, ggml_tensor* x, int num_heads)
 
				 }
			
 
				 
			
 
				 
			
 
				-
			
 
				-extern "C" ggml_tensor* // (slen, d_in)
			
 
				-MultiheadAttention_forward(
			
 
				+// TODO: borken
			
 
				+extern "C" ggml_tensor* MultiheadAttention_forward(
			
 
				     fairseq2_model& model,
			
 
				     const std::string &prefix,
			
 
				     ggml_tensor* queries,  // (slen, d_in)
			
--- a/ggml/examples/unity/fairseq2.h
+++ b/ggml/examples/unity/fairseq2.h
@@ -28,117 +28,29 @@ extern "C" std::string* std_string_alloc(char* c_str);
 
				 extern "C" void std_string_free(std::string* str);
			
 
				 
			
 
				 
			
 
				-struct Linear {
			
 
				-    struct ggml_tensor* weight;  // out_dim * in_dim
			
 
				-    struct ggml_tensor* bias;  // out_dim
			
 
				-};
			
 
				-
			
 
				-std::size_t Linear_size(int32_t input_dim, int32_t output_dim);
			
 
				-void Linear_init(Linear& self,fairseq2_model& model, const std::string &prefix, int input_dim, int output_dim, bool bias);
			
 
				-
			
 
				-// LayerNorm
			
 
				-
			
 
				-struct LayerNorm {
			
 
				-    struct ggml_tensor* weight;  // model_dim
			
 
				-    struct ggml_tensor* bias;  // model_dim
			
 
				-};
			
 
				-
			
 
				-std::size_t LayerNorm_size(int32_t dim);
			
 
				-
			
 
				-void LayerNorm_init(LayerNorm& self, fairseq2_model& model, const std::string &prefix, int dim);
			
 
				-
			
 
				-// ConformerConvolution
			
 
				-// struct ConformerConvolution {
			
 
				-//     // pointwise_conv1: Conv1d
			
 
				-//     // pointwise_conv1_activation: GLU
			
 
				-//     // depthwise_conv: Conv1d
			
 
				-//     // batch_norm: BatchNorm1d
			
 
				-//     // depthwise_activation: Module
			
 
				-//     // pointwise_conv2: Conv1d
			
 
				-// };
			
 
				-
			
 
				-// std::size_t ConformerConvolution_size(int32_t dim);
			
 
				-
			
 
				-// void ConformerConvolution_init(ConformerConvolution* self, fairseq2_model& model, const std::string &prefix, int dim);
			
 
				-
			
 
				-
			
 
				-
			
 
				-struct MultiheadAttention {
			
 
				-    // num_key_value_heads: int
			
 
				-    struct Linear q_proj;
			
 
				-    struct Linear k_proj;
			
 
				-    struct Linear v_proj;
			
 
				-    // pos_encoder: Optional[PositionEncoder]
			
 
				-    struct ggml_tensor* bias_k;
			
 
				-    struct ggml_tensor* bias_v;
			
 
				-    // add_zero_attn: bool
			
 
				-    // head_scale_weight: Optional[Parameter]
			
 
				-    struct Linear output_proj;
			
 
				-};
			
 
				-
			
 
				-void MultiheadAttention_init(MultiheadAttention& self, fairseq2_model& model, const std::string &prefix, int model_dim, int num_heads);
			
 
				-
			
 
				-struct StandardFeedForwardNetwork {
			
 
				-    struct Linear inner_proj; // ffn_inner_dim x model_dim
			
 
				-    // inner_activation -> Relu for unity
			
 
				-    // struct Dropout inner_dropout;
			
 
				-    struct LayerNorm inner_layer_norm; // ffn_inner_dim
			
 
				-    struct Linear output_proj; // model_dim x ffn_inner_dim
			
 
				-};
			
 
				-
			
 
				-std::size_t StandardFeedForwardNetwork_size(int32_t dim, int32_t inner_dim);
			
 
				+extern "C" ggml_tensor* Linear_forward(
			
 
				+    fairseq2_model& model,
			
 
				+    const std::string &prefix,
			
 
				+    ggml_tensor* input
			
 
				+);
			
 
				 
			
 
				-void StandardFeedForwardNetwork_init(
			
 
				-    StandardFeedForwardNetwork& self,
			
 
				+extern "C" ggml_tensor* LayerNorm_forward(
			
 
				     fairseq2_model& model,
			
 
				     const std::string &prefix,
			
 
				-    int model_dim,
			
 
				-    int inner_dim
			
 
				+    ggml_tensor* input
			
 
				 );
			
 
				 
			
 
				 extern "C" ggml_tensor* StandardFeedForwardNetwork_forward(
			
 
				     fairseq2_model& model,
			
 
				     const std::string& prefix,
			
 
				-    ggml_tensor* input
			
 
				+    ggml_tensor* seqs
			
 
				 );
			
 
				 
			
 
				-// Transformer
			
 
				-
			
 
				-enum TransformerNormOrder {
			
 
				-    TRANSFORMER_NORM_ORDER_POST = 0,
			
 
				-    TRANSFORMER_NORM_ORDER_PRE = 1,
			
 
				-    TRANSFORMER_NORM_ORDER_PRE_WITH_NORMFORMER = 2
			
 
				-};
			
 
				-
			
 
				-
			
 
				-struct TransformerDecoderLayer {
			
 
				-    struct MultiheadAttention self_attn;
			
 
				-    struct LayerNorm self_attn_norm;
			
 
				-    // self_attn_dropout: Optional[Dropout]
			
 
				-    struct LayerNorm self_attn_layer_norm;
			
 
				-    struct MultiheadAttention encoder_decoder_attn;
			
 
				-    // encoder_decoder_dropout: Optional[Dropout]
			
 
				-    struct LayerNorm encoder_decoder_attn_layer_norm;
			
 
				-    struct StandardFeedForwardNetwork ffn;
			
 
				-    // ffn_dropout: Optional[Dropout]
			
 
				-    // residual_scale: Optional[Parameter]
			
 
				-    struct LayerNorm ffn_layer_norm;
			
 
				-    // norm_order: TransformerNormOrder
			
 
				-};
			
 
				-
			
 
				-void TransformerDecoderLayer_init();
			
 
				-
			
 
				-
			
 
				-struct TransformerDecoder {
			
 
				-    std::vector<TransformerDecoderLayer> layers;
			
 
				-    struct LayerNorm layer_norm;
			
 
				-};
			
 
				-
			
 
				-// std::size_t TransformerDecoder_size(int32_t input_dim, int32_t output_dim);
			
 
				-// void TransformerDecoder_init(TransformerEncoder* self, fairseq2_model& model, const std::string &prefix, TransformerNormOrder norm_order);
			
 
				-
			
 
				-
			
 
				-// std::size_t TransformerEncoder_size(int32_t input_dim, int32_t output_dim);
			
 
				-// void TransformerEncoder_init(TransformerEncoder* self, fairseq2_model& model, const std::string &prefix, TransformerNormOrder norm_order);
			
 
				-
			
 
				-//
			
 
				+extern "C" ggml_tensor* MultiheadAttention_forward(
			
 
				+    fairseq2_model& model,
			
 
				+    const std::string &prefix,
			
 
				+    ggml_tensor* queries,  // (slen, d_in)
			
 
				+    ggml_tensor* keys,  // (klen, d_in)
			
 
				+    ggml_tensor* values,  // (klen, d_out)
			
 
				+    ggml_tensor* _ // (klen, slen)  TODO: do we need to pass mask here ?
			
 
				+);