zzycode1005
diff --git a/‎CMakeLists.txt‎
Lines changed: 2 additions & 1 deletion b/‎CMakeLists.txt‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎docs/source/getting-started/quick_start.md‎
Lines changed: 2 additions & 3 deletions b/‎docs/source/getting-started/quick_start.md‎
Lines changed: 2 additions & 3 deletions
diff --git a/‎docs/source/user-guide/prefix-cache/dram_store.md‎
Lines changed: 0 additions & 133 deletions b/‎docs/source/user-guide/prefix-cache/dram_store.md‎
Lines changed: 0 additions & 133 deletions
diff --git a/‎docs/source/user-guide/prefix-cache/index.md‎
Lines changed: 0 additions & 1 deletion b/‎docs/source/user-guide/prefix-cache/index.md‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎setup.py‎
Lines changed: 1 addition & 2 deletions b/‎setup.py‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎test/common/capture_utils.py‎
Lines changed: 2 additions & 0 deletions b/‎test/common/capture_utils.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎test/common/llmperf/__init__.py‎ b/‎test/common/llmperf/__init__.py‎
diff --git a/‎test/common/llmperf/run_inference.py‎
Lines changed: 185 additions & 0 deletions b/‎test/common/llmperf/run_inference.py‎
Lines changed: 185 additions & 0 deletions
diff --git a/‎test/common/llmperf/utils/__init__.py‎ b/‎test/common/llmperf/utils/__init__.py‎
diff --git a/‎test/common/llmperf/utils/common_metrics.py‎
Lines changed: 17 additions & 0 deletions b/‎test/common/llmperf/utils/common_metrics.py‎
Lines changed: 17 additions & 0 deletions
@@ -9,7 +9,8 @@ set(CMAKE_EXPORT_COMPILE_COMMANDS ON)
 option(BUILD_UCM_STORE "build ucm store module." ON)
 option(BUILD_UCM_SPARSE "build ucm sparse module." ON)
 option(BUILD_UNIT_TESTS "build all unit test suits." OFF)
-option(BUILD_NUMA "build numactl library" OFF)
+option(BUILD_NUMA "build numactl library." OFF)
+option(DOWNLOAD_DEPENDENCE "download dependence by cmake." ON)
 set(RUNTIME_ENVIRONMENT "simu" CACHE STRING "runtime: simu, ascend, musa or cuda.")
 
 execute_process(COMMAND git rev-parse HEAD OUTPUT_VARIABLE UCM_COMMIT_ID OUTPUT_STRIP_TRAILING_WHITESPACE)
 
@@ -77,10 +77,9 @@ vllm serve ${MODEL_PATH} \
     "kv_connector_module_path": "ucm.integration.vllm.uc_connector",
     "kv_role": "kv_both",
     "kv_connector_extra_config": {
-        "ucm_connector_name": "UcmDramStore",
+        "ucm_connector_name": "UcmNfsStore",
         "ucm_connector_config": {
-            "max_cache_size": 5368709120,
-            "kv_block_size": 262144
+            "storage_backends": "/home/test"
         }
     }
 }'
 
@@ -79,6 +79,5 @@ performance.
 
 :::{toctree}
 :maxdepth: 1
-dram_store
 nfs_store
 :::
@@ -135,7 +135,7 @@ def _get_package_data_with_so():
 
 setup(
     name="uc-manager",
-    version="0.1.0rc2",
+    version="0.1.0rc4",
     description="Unified Cache Management",
     author="Unified Cache Team",
     packages=find_packages(),
@@ -144,5 +144,4 @@ def _get_package_data_with_so():
     cmdclass={"build_ext": CMakeBuild},
     package_data=_get_package_data_with_so(),
     zip_safe=False,
-    install_requires=["vllm==0.9.2"],
 )
@@ -1,3 +1,4 @@
+import functools
 from typing import Any, Dict, List
 
 from common.db_utils import write_to_db
@@ -44,6 +45,7 @@ def post_process(table_name: str, **kwargs) -> List[Dict[str, Any]]:
 
 # ---------------- decorator ----------------
 def export_vars(func):
+    @functools.wraps(func)
     def wrapper(*args, **kwargs):
         result = func(*args, **kwargs)
         # If the function returns a dict containing '_data' or 'data', post-process it
 
@@ -0,0 +1,185 @@
+import json
+import os
+import random
+from pathlib import Path
+from typing import Any, Dict, List
+
+import yaml
+from common.llmperf.utils.token_benchmark import run_token_benchmark
+from common.llmperf.utils.utils import reset_prefill_cache
+
+
+def run_test_cases(
+    llm_api,
+    model,
+    timeout,
+    max_num_completed_requests,
+    concurrent_requests,
+    mean_input_tokens,
+    stddev_input,
+    mean_output_tokens,
+    stddev_output,
+    additional_sampling_params,
+    timestamp_dir,
+    server_url,
+    tokenizer_path,
+    hit_rate,
+):
+    print(f"[INFO] Total {len(mean_input_tokens)} test cases to be executed")
+    all_summaries = []
+    failed_case = []
+
+    # Clear proxy environment variables
+    env = os.environ.copy()
+    env.pop("http_proxy", None)
+    env.pop("https_proxy", None)
+
+    for i, (
+        mean_input,
+        mean_output,
+        max_completed,
+        concurrent,
+        additional_sampling_params,
+        hit_rate_val,
+    ) in enumerate(
+        zip(
+            mean_input_tokens,
+            mean_output_tokens,
+            max_num_completed_requests,
+            concurrent_requests,
+            additional_sampling_params,
+            hit_rate,
+        ),
+        start=1,
+    ):
+        # for i, case in enumerate(mean_input_tokens):
+        print(f"\n>>> Executing test case {i} <<<")
+        reset_prefill_cache(env, server_url)
+        # Use a fixed random_seed for each test to control PC hit_rate
+        random_seed = random.randint(1, 100000)
+
+        try:
+            # Determine if two runs are needed (PC hit_rate test)
+            if hit_rate_val == 0:
+                summary = run_token_benchmark(
+                    llm_api=llm_api,
+                    model=model,
+                    test_timeout_s=timeout,
+                    max_num_completed_requests=max_completed,
+                    concurrent_requests=concurrent,
+                    mean_input_tokens=mean_input,
+                    stddev_input_tokens=stddev_input,
+                    mean_output_tokens=mean_output,
+                    stddev_output_tokens=stddev_output,
+                    additional_sampling_params=additional_sampling_params,
+                    results_dir=str(timestamp_dir),
+                    random_seed=random_seed,
+                    openai_api_base=server_url + "/v1",
+                    tokenizer_path=tokenizer_path,
+                    user_metadata={"case_idx": i, "phase": "normal"},
+                )
+            else:
+                print(
+                    f"[INFO] hit_rate > 0 detected, entering prefill mode, PC hit rate: {hit_rate_val} %"
+                )
+                # hit_rate > 0: first prefill mode
+                prefill_mean_input = int(mean_input * hit_rate_val / 100)
+                print(
+                    f"[INFO] Prefill execution: mean_input_tokens={prefill_mean_input}"
+                )
+                run_token_benchmark(
+                    llm_api=llm_api,
+                    model=model,
+                    test_timeout_s=timeout,
+                    max_num_completed_requests=max_completed,
+                    concurrent_requests=concurrent,
+                    mean_input_tokens=prefill_mean_input,
+                    stddev_input_tokens=stddev_input,
+                    mean_output_tokens=2,
+                    stddev_output_tokens=stddev_output,
+                    additional_sampling_params=additional_sampling_params,
+                    results_dir=str(timestamp_dir),
+                    random_seed=random_seed,
+                    openai_api_base=server_url + "/v1",
+                    tokenizer_path=tokenizer_path,
+                    user_metadata={"case_idx": i, "phase": "prefill"},
+                )
+                reset_prefill_cache(env, server_url)
+                # Then run normal mode
+                print("[INFO] Prefill completed, switching to normal mode execution")
+                summary = run_token_benchmark(
+                    llm_api=llm_api,
+                    model=model,
+                    test_timeout_s=timeout,
+                    max_num_completed_requests=max_completed,
+                    concurrent_requests=concurrent,
+                    mean_input_tokens=mean_input,
+                    stddev_input_tokens=stddev_input,
+                    mean_output_tokens=mean_output,
+                    stddev_output_tokens=stddev_output,
+                    additional_sampling_params=additional_sampling_params,
+                    results_dir=str(timestamp_dir),
+                    random_seed=random_seed,
+                    openai_api_base=server_url + "/v1",
+                    tokenizer_path=tokenizer_path,
+                    user_metadata={"case_idx": i, "phase": "normal"},
+                )
+            all_summaries.append(summary)
+        except Exception as e:
+            print(f"[Warning] {e}")
+            failed_case.append(i)
+
+    return all_summaries, failed_case
+
+
+def inference_results(
+    mean_input_tokens,
+    mean_output_tokens,
+    max_num_completed_requests,
+    concurrent_requests,
+    additional_sampling_params,
+    hit_rate,
+):
+    config_file = Path(__file__).parent.parent.parent / "config.yaml"
+    print("[INFO] Initialization complete, starting main process")
+    print(f"[INFO] Reading configuration file: {config_file}")
+    with open(config_file, "r", encoding="utf-8") as f:
+        config = yaml.safe_load(f)
+        llm_api = config.get("llm_connection", {}).get("llm_api", "openai")
+        model = config.get("llm_connection", {}).get("model", "")
+        test_timeout_s = config.get("llm_connection", {}).get("test_timeout_s", 60000)
+        stddev_input_tokens = config.get("llm_connection", {}).get(
+            "stddev_input_tokens", 0
+        )
+        stddev_output_tokens = config.get("llm_connection", {}).get(
+            "stddev_output_tokens", 0
+        )
+        timestamp_dir = Path("results")
+        timestamp_dir.mkdir(parents=True, exist_ok=True)
+        server_url = config.get("llm_connection", {}).get("server_url", "")
+        tokenizer_path = config.get("llm_connection", {}).get("tokenizer_path", "")
+        print(f"[INFO] Created results directory: {timestamp_dir}")
+
+        all_summaries, failed_cases = run_test_cases(
+            llm_api,
+            model,
+            test_timeout_s,
+            max_num_completed_requests,
+            concurrent_requests,
+            mean_input_tokens,
+            stddev_input_tokens,
+            mean_output_tokens,
+            stddev_output_tokens,
+            additional_sampling_params,
+            timestamp_dir,
+            server_url,
+            tokenizer_path,
+            hit_rate,
+        )
+        total = len(mean_input_tokens)
+        print(
+            f"\n[INFO] All tests completed! Success: {total - len(failed_cases)}/{total}"
+        )
+        if failed_cases:
+            print(f"[WARN] Failed case indices: {failed_cases}")
+    return all_summaries
@@ -0,0 +1,17 @@
+# TODO (Avnishn): compute metrics in class
+INTER_TOKEN_LAT = "inter_token_latency_s"
+TTFT = "ttft_s"
+E2E_LAT = "end_to_end_latency_s"
+NUM_INPUT_TOKENS = "number_input_tokens"
+NUM_OUTPUT_TOKENS = "number_output_tokens"
+NUM_TOTAL_TOKENS = "number_total_tokens"
+REQ_OUTPUT_THROUGHPUT = "request_output_throughput_token_per_s"
+ERROR_MSG = "error_msg"
+ERROR_CODE = "error_code"
+ERROR_CODE_FREQ = "error_code_frequency"
+NUM_ERRORS = "number_errors"
+OUTPUT_THROUGHPUT = "mean_output_throughput_token_per_s"
+NUM_COMPLETED_REQUESTS = "num_completed_requests"
+COMPLETED_REQUESTS_PER_MIN = "num_completed_requests_per_min"
+ERROR_RATE = "error_rate"
+NUM_REQ_STARTED = "num_requests_started"
Original file line number	Diff line number	Diff line change
`@@ -77,10 +77,9 @@ vllm serve ${MODEL_PATH} \`
`77`	`77`	`"kv_connector_module_path": "ucm.integration.vllm.uc_connector",`
`78`	`78`	`"kv_role": "kv_both",`
`79`	`79`	`"kv_connector_extra_config": {`
`80`		`- "ucm_connector_name": "UcmDramStore",`
	`80`	`+ "ucm_connector_name": "UcmNfsStore",`
`81`	`81`	`"ucm_connector_config": {`
`82`		`- "max_cache_size": 5368709120,`
`83`		`- "kv_block_size": 262144`
	`82`	`+ "storage_backends": "/home/test"`
`84`	`83`	`}`
`85`	`84`	`}`
`86`	`85`	`}'`