add test stage

zzycode1005 · zzycode1005 · commit 633551c38710 · 2025-12-02T19:45:18.000-08:00
diff --git a/test/suites/E2E/test_evaluator.py b/test/suites/E2E/test_evaluator.py
@@ -0,0 +1,44 @@
+import dataclasses
+
+import pytest
+from common.capture_utils import export_vars
+from common.config_utils import config_utils as config_instance
+from common.uc_eval.task import DocQaEvalTask
+from common.uc_eval.utils.data_class import EvalConfig, ModelConfig
+
+
+@pytest.fixture(scope="session")
+def model_config() -> ModelConfig:
+    cfg = config_instance.get_config("models") or {}
+    field_name = [field.name for field in dataclasses.fields(ModelConfig)]
+    kwargs = {k: v for k, v in cfg.items() if k in field_name and v is not None}
+    return ModelConfig(**kwargs)
+
+
+doc_qa_eval_cases = [
+    pytest.param(
+        EvalConfig(
+            data_type="doc_qa",
+            dataset_file_path="common/uc_eval/datasets/doc_qa/demo.jsonl",
+            enable_prefix_cache=False,
+            parallel_num=1,
+            benchmark_mode="evaluate",
+            metrics=["accuracy", "bootstrap-accuracy", "f1-score"],
+            eval_class="common.uc_eval.utils.metric:Includes",
+        ),
+        id="doc-qa-complete-recalculate-evaluate",
+    )
+]
+
+
+@pytest.mark.feature("eval_test")
+@pytest.mark.stage(2)
+@pytest.mark.parametrize("eval_config", doc_qa_eval_cases)
+@export_vars
+def test_doc_qa_perf(
+    eval_config: EvalConfig, model_config: ModelConfig, request: pytest.FixtureRequest
+):
+    file_save_path = config_instance.get_config("reports").get("base_dir")
+    task = DocQaEvalTask(model_config, eval_config, file_save_path)
+    result = task.run()
+    return {"_name": request.node.callspec.id, "_data": result}
diff --git a/test/suites/E2E/test_uc_performance.py b/test/suites/E2E/test_uc_performance.py
@@ -203,6 +203,7 @@ def model_config() -> ModelConfig:
 
 
 @pytest.mark.feature("perf_test")
+@pytest.mark.stage(2)
 @pytest.mark.parametrize("perf_config", sync_perf_cases)
 @export_vars
 def test_sync_perf(
@@ -211,7 +212,7 @@ def test_sync_perf(
     file_save_path = config_instance.get_config("reports").get("base_dir")
     task = SyntheticPerfTask(model_config, perf_config, file_save_path)
     result = task.run()
-    return {"_name": request.node.callspec.id, "_data": result}
+    return {"_name": request.node.callspec.id, "_proj": result}
 
 
 multiturn_dialogue_perf_cases = [
@@ -229,6 +230,7 @@ def test_sync_perf(
 
 
 @pytest.mark.feature("perf_test")
+@pytest.mark.stage(2)
 @pytest.mark.parametrize("perf_config", multiturn_dialogue_perf_cases)
 @export_vars
 def test_multiturn_dialogue_perf(
@@ -255,6 +257,7 @@ def test_multiturn_dialogue_perf(
 
 
 @pytest.mark.feature("perf_test")
+@pytest.mark.stage(2)
 @pytest.mark.parametrize("perf_config", doc_qa_perf_cases)
 @export_vars
 def test_doc_qa_perf(