update

goliaro · goliaro · commit fa4b03192ffc · 2025-09-04T05:49:03.000Z
diff --git a/inference/flexllm/peft_train.cc b/inference/flexllm/peft_train.cc
@@ -364,12 +364,12 @@ void FlexFlow::top_level_task(Task const *task,
                    num_layers_per_finetuning_step,
                    temporal_sharing_frequency,
                    run_warmup);
-  assert(peft_finetuning_enabled(ffconfig.peft_support_mode) &&
-         "Cannot train LORA adapter if finetuning is not enabled");
-  assert(!file_paths.dataset_file_path.empty() &&
-         "Cannot train LORA adapter if dataset path is empty");
-  assert(!peft_model_name.empty() &&
-         "PEFT model name should not be left empty");
+  // assert(peft_finetuning_enabled(ffconfig.peft_support_mode) &&
+  //        "Cannot train LORA adapter if finetuning is not enabled");
+  // assert(!file_paths.dataset_file_path.empty() &&
+  //        "Cannot train LORA adapter if dataset path is empty");
+  // assert(!peft_model_name.empty() &&
+  //        "PEFT model name should not be left empty");
 
   if (num_kv_cache_slots == -1) {
     num_kv_cache_slots = max_sequence_length * max_requests_per_batch;
@@ -520,17 +520,17 @@ void FlexFlow::top_level_task(Task const *task,
   rm->start_background_server(&model);
 
   // Add PEFT adapter(s)
-  PEFTModelID *peft_model_id_finetuning =
-      model.register_peft_adapter(peft_config_finetuning);
-
-  if (run_warmup) {
-    std::vector<Request> warmup_requests =
-        make_warmup_requests(10, 1000, peft_model_id_finetuning);
-    std::vector<GenerationResult> warmup_result =
-        model.generate(warmup_requests);
-    rm->set_inference_finished(false); // reset inference finished flag
-    std::cout << "----------warmup finished--------------" << std::endl;
-  }
+  // PEFTModelID *peft_model_id_finetuning =
+  //     model.register_peft_adapter(peft_config_finetuning);
+
+  // if (run_warmup) {
+  //   std::vector<Request> warmup_requests =
+  //       make_warmup_requests(10, 1000, peft_model_id_finetuning);
+  //   std::vector<GenerationResult> warmup_result =
+  //       model.generate(warmup_requests);
+  //   rm->set_inference_finished(false); // reset inference finished flag
+  //   std::cout << "----------warmup finished--------------" << std::endl;
+  // }
 
   // Run workload
   {
@@ -544,23 +544,23 @@ void FlexFlow::top_level_task(Task const *task,
     }
 
     // Add fine-tuning request
-    assert(!file_paths.dataset_file_path.empty() &&
-           "Dataset file path is required for fine-tuning.");
-    printf("Finetuning request with dataset %s\n",
-           file_paths.dataset_file_path.c_str());
-    Request fine_tuning_req;
-    fine_tuning_req.req_type = RequestType::REQ_FINETUNING;
-    fine_tuning_req.peft_model_id = *peft_model_id_finetuning;
-    fine_tuning_req.peft_finetuning_info.dataset_filepath =
-        file_paths.dataset_file_path;
-    fine_tuning_req.peft_finetuning_info.max_samples = max_finetuning_samples;
-    fine_tuning_req.peft_finetuning_info.max_training_epochs =
-        max_training_epochs;
-    fine_tuning_req.peft_finetuning_info.gradient_accumulation_steps =
-        gradient_accumulation_steps;
-    fine_tuning_req.peft_finetuning_info.num_logging_steps = num_logging_steps;
+    // assert(!file_paths.dataset_file_path.empty() &&
+    //        "Dataset file path is required for fine-tuning.");
+    // printf("Finetuning request with dataset %s\n",
+    //        file_paths.dataset_file_path.c_str());
+    // Request fine_tuning_req;
+    // fine_tuning_req.req_type = RequestType::REQ_FINETUNING;
+    // fine_tuning_req.peft_model_id = *peft_model_id_finetuning;
+    // fine_tuning_req.peft_finetuning_info.dataset_filepath =
+    //     file_paths.dataset_file_path;
+    // fine_tuning_req.peft_finetuning_info.max_samples = max_finetuning_samples;
+    // fine_tuning_req.peft_finetuning_info.max_training_epochs =
+    //     max_training_epochs;
+    // fine_tuning_req.peft_finetuning_info.gradient_accumulation_steps =
+    //     gradient_accumulation_steps;
+    // fine_tuning_req.peft_finetuning_info.num_logging_steps = num_logging_steps;
     std::vector<Request> finetuning_requests;
-    finetuning_requests.push_back(fine_tuning_req);
+    // finetuning_requests.push_back(fine_tuning_req);
 
     std::cout << "----------inference started--------------" << std::endl;
     std::vector<GenerationResult> result =
@@ -598,7 +598,7 @@ void FlexFlow::top_level_task(Task const *task,
                                    run_warmup ? 10 : 0); // num_warmup_requests
   }
 
-  free(peft_model_id_finetuning);
+  // free(peft_model_id_finetuning);
 
   std::cout << "----------inference finished--------------" << std::endl;
 
diff --git a/src/ops/fused.cu b/src/ops/fused.cu
@@ -184,6 +184,17 @@ __host__ void
       printf("\tmy_output_accessor[%i] = output_accessor[%i]\n", i, my_off);
 #endif
     }
+    
+    
+    int shard_id = task->index_point.point_data[0];
+    cudaStream_t stream;
+    checkCUDA(get_legion_stream(&stream));
+    cudaEvent_t t_start, t_end;
+    cudaEventCreate(&t_start);
+    cudaEventCreate(&t_end);
+    cudaEventRecord(t_start, stream);
+    
+
     switch (fused->op_op_type[op]) {
       case OP_CONCAT: {
         assert(fused->op_num_weights[op] == 0);
@@ -620,6 +631,17 @@ __host__ void
         assert(false && "Fusion currently does not support type");
       }
     }
+    cudaEventRecord(t_end, stream);
+    checkCUDA(cudaEventSynchronize(t_end));
+    float elapsed = 0;
+    checkCUDA(cudaEventElapsedTime(&elapsed, t_start, t_end));
+    cudaEventDestroy(t_start);
+    cudaEventDestroy(t_end);
+    std::string op_name_without_uid = get_op_name_without_uid(metas->meta[op]);
+    if (shard_id == 0) {
+      std::cout << "OPTIME[" << op_name_without_uid << "]= "<< elapsed << " ms" << std::endl;
+    }
+    
     if (metas->meta[op]->inference_debugging) {
       std::vector<GenericTensorAccessorR> input_accessors_to_save;
       std::vector<GenericTensorAccessorR> weight_accessors_to_save;
diff --git a/src/parallel_ops/combine.cc b/src/parallel_ops/combine.cc
@@ -477,6 +477,15 @@ void Combine::forward_task_with_type(Task const *task,
                                      std::vector<PhysicalRegion> const &regions,
                                      Context ctx,
                                      Runtime *runtime) {
+  
+  int shard_id = task->index_point.point_data[0];
+  cudaStream_t stream;
+  checkCUDA(get_legion_stream(&stream));
+  cudaEvent_t t_start, t_end;
+  cudaEventCreate(&t_start);
+  cudaEventCreate(&t_end);
+  cudaEventRecord(t_start, stream);
+  
   Domain input_domain = runtime->get_index_space_domain(
       ctx, task->regions[0].region.get_index_space());
   Domain output_domain = runtime->get_index_space_domain(
@@ -489,6 +498,17 @@ void Combine::forward_task_with_type(Task const *task,
       regions[1], task->regions[1], FID_DATA, ctx, runtime);
 
   forward_kernel<DT>(input_ptr, output_ptr, output_domain.get_volume());
+
+  cudaEventRecord(t_end, stream);
+  checkCUDA(cudaEventSynchronize(t_end));
+  float elapsed = 0;
+  checkCUDA(cudaEventElapsedTime(&elapsed, t_start, t_end));
+  cudaEventDestroy(t_start);
+  cudaEventDestroy(t_end);
+  if (shard_id == 0) {
+    std::cout << "OPTIME[Combine]= "<< elapsed << " ms" << std::endl;
+  }
+
 }
 
 bool Combine::peft_bwd_task(Task const *task,