diff --git a/‎src/liger_kernel/ops/geglu.py‎
Lines changed: 1 addition & 1 deletion b/‎src/liger_kernel/ops/geglu.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/liger_kernel/ops/swiglu.py‎
Lines changed: 1 addition & 1 deletion b/‎src/liger_kernel/ops/swiglu.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/liger_kernel/transformers/model/gemma.py‎
Lines changed: 9 additions & 1 deletion b/‎src/liger_kernel/transformers/model/gemma.py‎
Lines changed: 9 additions & 1 deletion
diff --git a/‎src/liger_kernel/transformers/model/gemma2.py‎
Lines changed: 9 additions & 1 deletion b/‎src/liger_kernel/transformers/model/gemma2.py‎
Lines changed: 9 additions & 1 deletion
diff --git a/‎src/liger_kernel/transformers/model/llama.py‎
Lines changed: 10 additions & 1 deletion b/‎src/liger_kernel/transformers/model/llama.py‎
Lines changed: 10 additions & 1 deletion
diff --git a/‎src/liger_kernel/transformers/model/mistral.py‎
Lines changed: 0 additions & 3 deletions b/‎src/liger_kernel/transformers/model/mistral.py‎
Lines changed: 0 additions & 3 deletions
diff --git a/‎src/liger_kernel/transformers/model/phi3.py‎
Lines changed: 9 additions & 1 deletion b/‎src/liger_kernel/transformers/model/phi3.py‎
Lines changed: 9 additions & 1 deletion
diff --git a/‎src/liger_kernel/transformers/model/qwen2.py‎
Lines changed: 8 additions & 0 deletions b/‎src/liger_kernel/transformers/model/qwen2.py‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎src/liger_kernel/transformers/monkey_patch.py‎
Lines changed: 10 additions & 3 deletions b/‎src/liger_kernel/transformers/monkey_patch.py‎
Lines changed: 10 additions & 3 deletions
@@ -40,7 +40,7 @@ def _geglu_tanh_forward_kernel(a, b, c, stride, n_cols: tl.constexpr, BLOCK_SIZE
     tanh_arg = sqrt_2_over_pi * (a_row + 0.044715 * a_cubed)
     tanh_result = tanh(tanh_arg)
     geglu_a = 0.5 * a_row * (1 + tanh_result)
-    c_row = geglu_a * b_row
+    c_row = geglu_a.cast(b_row.dtype) * b_row
     tl.store(c + col_offsets, c_row, mask=mask)
 
 
 
@@ -26,7 +26,7 @@ def _swiglu_forward_kernel(a_ptr, b_ptr, c_ptr, stride, n_cols: tl.constexpr, BL
     # sigmoid requires type float32
     a_row = tl.load(a_ptr + col_offsets, mask=mask, other=0).to(tl.float32)
     b_row = tl.load(b_ptr + col_offsets, mask=mask, other=0)
-    c_row = silu(a_row) * b_row
+    c_row = silu(a_row).cast(b_row.dtype) * b_row
     tl.store(c_ptr + col_offsets, c_row, mask=mask)
 
 
 
@@ -27,6 +27,7 @@ def lce_forward_deprecated(
     output_hidden_states: Optional[bool] = None,
     return_dict: Optional[bool] = None,
     cache_position: Optional[torch.LongTensor] = None,
+    skip_logits: Optional[bool] = None,
 ) -> Union[Tuple, CausalLMOutputWithPast]:
     r"""
 
@@ -81,7 +82,14 @@ def lce_forward_deprecated(
     loss = None
     logits = None
 
-    if self.training and (labels is not None):
+    if skip_logits and labels is None:
+        raise ValueError("skip_logits is True, but labels is None")
+
+    if skip_logits is None:
+        # By default, if in training mode, don't materialize logits
+        skip_logits = self.training and labels is not None
+
+    if skip_logits:
         shift_hidden_states = hidden_states[..., :-1, :].contiguous()
         shift_labels = labels[..., 1:].contiguous()
 
 
@@ -30,6 +30,7 @@ def lce_forward_deprecated(
     output_hidden_states: Optional[bool] = None,
     return_dict: Optional[bool] = None,
     cache_position: Optional[torch.LongTensor] = None,
+    skip_logits: Optional[bool] = None,
     **kwargs,
 ) -> Union[Tuple, CausalLMOutputWithPast]:
     r"""
@@ -85,7 +86,14 @@ def lce_forward_deprecated(
     loss = None
     logits = None
 
-    if self.training and (labels is not None):
+    if skip_logits and labels is None:
+        raise ValueError("skip_logits is True, but labels is None")
+
+    if skip_logits is None:
+        # By default, if in training mode, don't materialize logits
+        skip_logits = self.training and labels is not None
+
+    if skip_logits:
         shift_hidden_states = hidden_states[..., :-1, :].contiguous()
         shift_labels = labels[..., 1:].contiguous()
 
 
@@ -37,6 +37,7 @@ def lce_forward_deprecated(
     output_hidden_states: Optional[bool] = None,
     return_dict: Optional[bool] = None,
     cache_position: Optional[torch.LongTensor] = None,
+    skip_logits: Optional[bool] = None,
 ) -> Union[Tuple, CausalLMOutputWithPast]:
     r"""
     Copy paste llama forward but replace torch cross entropy with liger fused linear cross entropy
@@ -91,7 +92,15 @@ def lce_forward_deprecated(
     loss = None
     logits = None
 
-    if self.training and (labels is not None):
+    # if in training mode, don't materialize logits
+    if skip_logits and labels is None:
+        raise ValueError("skip_logits is True, but labels is None")
+
+    if skip_logits is None:
+        # By default, if in training mode, don't materialize logits
+        skip_logits = self.training and labels is not None
+
+    if skip_logits:
         shift_hidden_states = hidden_states[..., :-1, :].contiguous()
         shift_labels = labels[..., 1:].contiguous()
 
 
@@ -133,6 +133,3 @@ def lce_forward(
         hidden_states=outputs.hidden_states,
         attentions=outputs.attentions,
     )
-
-
-# Note: Grad Acc is not fixed in mistral at transformer 4.46.1
@@ -26,6 +26,7 @@ def lce_forward_deprecated(
     output_hidden_states: Optional[bool] = None,
     return_dict: Optional[bool] = None,
     cache_position: Optional[torch.LongTensor] = None,
+    skip_logits: Optional[bool] = None,
 ) -> Union[Tuple, CausalLMOutputWithPast]:
     r"""
     Copy paste phi3 forward from transfomers v4.44.2 but replace torch cross entropy with liger fused linear cross entropy
@@ -80,7 +81,14 @@ def lce_forward_deprecated(
     loss = None
     logits = None
 
-    if self.training and labels is not None:
+    if skip_logits and labels is None:
+        raise ValueError("skip_logits is True, but labels is None")
+
+    if skip_logits is None:
+        # By default, if in training mode, don't materialize logits
+        skip_logits = self.training and labels is not None
+
+    if skip_logits:
         shift_hidden_states = hidden_states[..., :-1, :].contiguous()
         shift_labels = labels[..., 1:].contiguous()
 
 
@@ -26,6 +26,7 @@ def lce_forward_deprecated(
     output_hidden_states: Optional[bool] = None,
     return_dict: Optional[bool] = None,
     cache_position: Optional[torch.LongTensor] = None,
+    skip_logits: Optional[bool] = None,
 ) -> Union[Tuple, CausalLMOutputWithPast]:
     r"""
     Copy paste Qwen2's forward but replace torch cross entropy with liger fused linear cross entropy
@@ -80,6 +81,13 @@ def lce_forward_deprecated(
     loss = None
     logits = None
 
+    if skip_logits and labels is None:
+        raise ValueError("skip_logits is True, but labels is None")
+
+    if skip_logits is None:
+        # By default, if in training mode, don't materialize logits
+        skip_logits = self.training and labels is not None
+
     if self.training and (labels is not None):
         shift_hidden_states = hidden_states[..., :-1, :].contiguous()
         shift_labels = labels[..., 1:].contiguous()
 
@@ -611,10 +611,17 @@ def apply_liger_kernel_to_mistral(
     if cross_entropy:
         modeling_mistral.CrossEntropyLoss = LigerCrossEntropyLoss
     if fused_linear_cross_entropy:
-        if model is not None:
-            model.forward = MethodType(mistral_lce_forward, model)
+        if transformer_version >= version.parse("4.49.0"):
+            if model is not None:
+                model.forward = MethodType(mistral_lce_forward, model)
+            else:
+                modeling_mistral.MistralForCausalLM.forward = mistral_lce_forward
         else:
-            modeling_mistral.MistralForCausalLM.forward = mistral_lce_forward
+            logger.warning(
+                "The latest version of Liger does not support transformers < 4.49.0 for llava. Please downgrade your liger version or upgrade your transformer version."
+            )
+            logger.warning("LigerFusedLinearCrossEntropy patch is not applied.")
+
     if swiglu:
         modeling_mistral.MistralMLP = LigerSwiGLUMLP
Original file line number	Diff line number	Diff line change
`@@ -133,6 +133,3 @@ def lce_forward(`
`133`	`133`	`hidden_states=outputs.hidden_states,`
`134`	`134`	`attentions=outputs.attentions,`
`135`	`135`	`)`
`136`		`-`
`137`		`-`
`138`		`-# Note: Grad Acc is not fixed in mistral at transformer 4.46.1`