Fix compatibility issues with Transformers v4.46.2 (#3389)

blzheng · web-flow · commit 4679764b9426 · 2024-12-03T16:11:50.000+08:00
diff --git a/intel_extension_for_pytorch/transformers/models/reference/models.py b/intel_extension_for_pytorch/transformers/models/reference/models.py
@@ -5768,6 +5768,81 @@ def prepare_inputs_for_generation_chatglm(
     }
 
 
+def prepare_inputs_for_generation_opt_mpt(
+    self,
+    input_ids,
+    past_key_values=None,
+    attention_mask=None,
+    inputs_embeds=None,
+    **kwargs,
+):
+    if past_key_values is not None:
+        past_length = past_key_values[0][0].shape[2]
+
+        # Some generation methods already pass only the last input ID
+        if input_ids.shape[1] > past_length:
+            remove_prefix_length = past_length
+        else:
+            # Default to old behavior: keep only final ID
+            remove_prefix_length = input_ids.shape[1] - 1
+
+        input_ids = input_ids[:, remove_prefix_length:]
+
+    # if `inputs_embeds` are passed, we only want to use them in the 1st generation step
+    if inputs_embeds is not None and past_key_values is None:
+        model_inputs = {"inputs_embeds": inputs_embeds}
+    else:
+        model_inputs = {"input_ids": input_ids}
+
+    model_inputs.update(
+        {
+            "past_key_values": past_key_values,
+            "use_cache": kwargs.get("use_cache"),
+            "attention_mask": attention_mask,
+        }
+    )
+    return model_inputs
+
+
+def prepare_inputs_for_generation_t5(
+    self,
+    input_ids,
+    past_key_values=None,
+    attention_mask=None,
+    head_mask=None,
+    decoder_head_mask=None,
+    decoder_attention_mask=None,
+    cross_attn_head_mask=None,
+    use_cache=None,
+    encoder_outputs=None,
+    **kwargs,
+):
+    # cut decoder_input_ids if past_key_values is used
+    if past_key_values is not None:
+        past_length = past_key_values[0][0].shape[2]
+
+        # Some generation methods already pass only the last input ID
+        if input_ids.shape[1] > past_length:
+            remove_prefix_length = past_length
+        else:
+            # Default to old behavior: keep only final ID
+            remove_prefix_length = input_ids.shape[1] - 1
+
+        input_ids = input_ids[:, remove_prefix_length:]
+
+    return {
+        "decoder_input_ids": input_ids,
+        "past_key_values": past_key_values,
+        "encoder_outputs": encoder_outputs,
+        "attention_mask": attention_mask,
+        "head_mask": head_mask,
+        "decoder_head_mask": decoder_head_mask,
+        "decoder_attention_mask": decoder_attention_mask,
+        "cross_attn_head_mask": cross_attn_head_mask,
+        "use_cache": use_cache,
+    }
+
+
 def prepare_inputs_for_generation_llama(
     self,
     input_ids,
diff --git a/intel_extension_for_pytorch/transformers/optimize.py b/intel_extension_for_pytorch/transformers/optimize.py
@@ -219,6 +219,8 @@ def model_convert_reference(_model):
         prepare_inputs_for_generation_gptneox,
         prepare_inputs_for_generation_git,
         prepare_inputs_for_generation_llava,
+        prepare_inputs_for_generation_opt_mpt,
+        prepare_inputs_for_generation_t5,
         detect_language,
         _postprocess_outputs_whisper,
         _prepare_encoder_decoder_kwargs_for_generation,
@@ -362,6 +364,11 @@ def model_convert_reference(_model):
             "forward",
             OPTForCausalLM_forward,
         )
+        convert_function(
+            _model,
+            "prepare_inputs_for_generation",
+            prepare_inputs_for_generation_opt_mpt,
+        )
     elif (
         hasattr(_model, "__class__")
         and _model.__class__
@@ -439,6 +446,9 @@ def model_convert_reference(_model):
             "forward",
             T5DenseGatedActDense_forward,
         )
+        convert_function(
+            _model, "prepare_inputs_for_generation", prepare_inputs_for_generation_t5
+        )
 
     # checking if model has been wrapped by deepspeed (distributed or not)
     try:
@@ -742,6 +752,11 @@ def model_convert_reference(_model):
             _model.config,
             distributed=distributed,
         )
+        convert_function(
+            _model,
+            "prepare_inputs_for_generation",
+            prepare_inputs_for_generation_opt_mpt,
+        )
     elif _model.config.architectures[0] == "MixtralForCausalLM":
         convert_function(_model, "forward", MixtralForCausalLM_forward)
         convert_function(_model.model, "forward", MixtralModel_forward)