Fix TPP scalar mul fusion issue (#3397)

jianan-gu · web-flow · commit b24885d6e19c · 2024-12-10T15:26:18.000+08:00
diff --git a/intel_extension_for_pytorch/transformers/models/reference/modules/decoder.py b/intel_extension_for_pytorch/transformers/models/reference/modules/decoder.py
@@ -97,7 +97,9 @@ def MllamaVisionEncoderLayer_forward(
             hidden_state = self.mlp.fc2(hidden_state)
             hidden_state = self.gate_ffn.tanh() * hidden_state
         else:
-            hidden_state = self.mlp_linear_mul(hidden_state, self.gate_ffn.tanh())
+            hidden_state = self.mlp_linear_mul(
+                hidden_state, self.gate_ffn.tanh().expand_as(residual)
+            )
         hidden_state = residual + hidden_state
     else:
         if self.distributed:
diff --git a/tests/cpu/test_ipex_optimize_transformers_nightly.py b/tests/cpu/test_ipex_optimize_transformers_nightly.py
@@ -195,14 +195,13 @@
         lambda m: m.model.layers[0].self_attn.__class__,
         lambda m: m.model.layers[0].__class__,
     ),
-    # TODO: uncomment when TPP issue is fixed
-    # model_info(
-    #     "mllama",
-    #     transformers.models.mllama.modeling_mllama.MllamaForConditionalGeneration,
-    #     True,
-    #     lambda m: m.language_model.model.layers[0].self_attn.__class__,
-    #     lambda m: m.language_model.model.layers[0].__class__,
-    # ),
+    model_info(
+        "mllama",
+        transformers.models.mllama.modeling_mllama.MllamaForConditionalGeneration,
+        True,
+        lambda m: m.language_model.model.layers[0].self_attn.__class__,
+        lambda m: m.language_model.model.layers[0].__class__,
+    ),
     model_info(
         "maira2",
         Maira2ForConditionalGeneration,