Fix issue in IPEX TP (#3409)

blzheng · web-flow · commit 6cd8b2dd9caa · 2024-12-17T13:03:51.000+08:00
diff --git a/intel_extension_for_pytorch/transformers/optimize.py b/intel_extension_for_pytorch/transformers/optimize.py
@@ -53,6 +53,7 @@ def lowering_class_cpu(m, target_m, new_class, config, tpp=False, woq=False):
 
 
 distributed = False
+is_deepspeed = False
 
 
 def is_distributed(m, ds_layers):
@@ -62,6 +63,8 @@ def is_distributed(m, ds_layers):
             ds_layers,
         ):
             global distributed
+            global is_deepspeed
+            is_deepspeed = True
             distributed = True
             return
         is_distributed(sub_m, ds_layers)
@@ -465,7 +468,8 @@ def model_convert_reference(_model):
         rank = ipex_comm.get_rank() if ipex_comm.has_ccl else 0
         if world_size > 1:
             global distributed
-            if distributed:
+            global is_deepspeed
+            if is_deepspeed:
                 need_ipex_tp = False
             else:
                 need_ipex_tp = True
diff --git a/intel_extension_for_pytorch/transformers/tensor_parallel.py b/intel_extension_for_pytorch/transformers/tensor_parallel.py
@@ -561,7 +561,7 @@ def shard_mha_weights(
                         rank,
                         world_size,
                         shard_by_head=True,
-                        value_with_share_qk=True,
+                        value_with_share_qk=value_with_share_qk,
                     )
                     # del sub_m.__dict__["_modules"][l_name]
                     setattr(sub_m, l_name, TPLinear)
diff --git a/tests/cpu/test_ipex_tensor_parallel.py b/tests/cpu/test_ipex_tensor_parallel.py
@@ -119,7 +119,7 @@ def tensor_parallel_with_optimize_transformers(self, model):
         input_dict["position_ids"] = position_ids.unsqueeze(0)
         ref_m = copy.deepcopy(model)
         for dtype in [torch.float32, torch.bfloat16]:
-            ipex_model = ipex.optimize_transformers(model, dtype=dtype)
+            ipex_model = ipex.llm.optimize(model, dtype=dtype)
             with torch.no_grad(), torch.cpu.amp.autocast(
                 enabled=True if dtype is torch.bfloat16 else False
             ):

Original file line number	Diff line number	Diff line change
`@@ -561,7 +561,7 @@ def shard_mha_weights(`
`561`	`561`	`rank,`
`562`	`562`	`world_size,`
`563`	`563`	`shard_by_head=True,`
`564`		`- value_with_share_qk=True,`
	`564`	`+ value_with_share_qk=value_with_share_qk,`
`565`	`565`	`)`
`566`	`566`	`# del sub_m.__dict__["_modules"][l_name]`
`567`	`567`	`setattr(sub_m, l_name, TPLinear)`