From 34c86c78083fbe95ad1b4958bd80bfa8106fc5e7 Mon Sep 17 00:00:00 2001
From: Chun Fang <chun.fang@amd.com>
Date: Fri, 10 Apr 2026 12:42:57 +0000
Subject: [PATCH 1/5] Upgrade GLM-5 image to v0.5.10

---
 .github/configs/amd-master.yaml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/configs/amd-master.yaml b/.github/configs/amd-master.yaml
index 867a81716..db6bfa7e7 100644
--- a/.github/configs/amd-master.yaml
+++ b/.github/configs/amd-master.yaml
@@ -240,7 +240,7 @@ qwen3.5-fp8-mi300x-sglang:
     - { tp: 8, conc-start: 4, conc-end: 64 }
 
 glm5-fp8-mi355x-sglang:
-  image: rocm/sgl-dev:v0.5.8.post1-rocm720-mi35x-20260219
+  image: lmsysorg/sglang:v0.5.10-rocm720-mi35x
   model: zai-org/GLM-5-FP8
   model-prefix: glm5
   runner: mi355x

From f0bbb074b067d7d859d9e030b4a8b2b1eb52feba Mon Sep 17 00:00:00 2001
From: Chun Fang <chun.fang@amd.com>
Date: Fri, 10 Apr 2026 12:48:01 +0000
Subject: [PATCH 2/5] Update perf-changelog

---
 perf-changelog.yaml | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/perf-changelog.yaml b/perf-changelog.yaml
index 19e7988e6..0636f9154 100644
--- a/perf-changelog.yaml
+++ b/perf-changelog.yaml
@@ -1322,3 +1322,9 @@
   description:
     - "Qwen3.5 fp4 support on SGL"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/1006
+
+- config-keys:
+    - glm5-fp8-mi355x-sglang
+  description:
+    - "Upgrade GLM5 FP8 MI355X SGLang image to v0.5.10"
+  pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/1023

From 8d32c240e0ded2682cd1fb9f287814e77c7d1dee Mon Sep 17 00:00:00 2001
From: Chun Fang <chun.fang@amd.com>
Date: Mon, 13 Apr 2026 14:46:09 +0000
Subject: [PATCH 3/5] Set kv-cache-dytpe fp8-e4m3 and disable-radix-cache

---
 benchmarks/single_node/glm5_fp8_mi355x.sh | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/benchmarks/single_node/glm5_fp8_mi355x.sh b/benchmarks/single_node/glm5_fp8_mi355x.sh
index 3d82fd856..668120e57 100755
--- a/benchmarks/single_node/glm5_fp8_mi355x.sh
+++ b/benchmarks/single_node/glm5_fp8_mi355x.sh
@@ -49,7 +49,9 @@ python3 -m sglang.launch_server \
     --mem-fraction-static 0.85 \
     --model-loader-extra-config '{"enable_multithread_load": true, "num_threads": 8}' \
     --nsa-prefill-backend tilelang \
-    --nsa-decode-backend tilelang $EVAL_CONTEXT_ARGS > $SERVER_LOG 2>&1 &
+    --nsa-decode-backend tilelang $EVAL_CONTEXT_ARGS  \
+    --kv-cache-dtype fp8_e4m3 \
+    --disable-radix-cache> $SERVER_LOG 2>&1 &
 
 SERVER_PID=$!
 

From 58486f74b740b9f45c69853f8442b3385a2dd757 Mon Sep 17 00:00:00 2001
From: Cameron Quilici <cjquilici@gmail.com>
Date: Tue, 14 Apr 2026 15:09:48 -0500
Subject: [PATCH 4/5] Update amd-master.yaml

change to nightly image
---
 .github/configs/amd-master.yaml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/configs/amd-master.yaml b/.github/configs/amd-master.yaml
index db6bfa7e7..5242940b7 100644
--- a/.github/configs/amd-master.yaml
+++ b/.github/configs/amd-master.yaml
@@ -240,7 +240,7 @@ qwen3.5-fp8-mi300x-sglang:
     - { tp: 8, conc-start: 4, conc-end: 64 }
 
 glm5-fp8-mi355x-sglang:
-  image: lmsysorg/sglang:v0.5.10-rocm720-mi35x
+  image: rocm/sgl-dev:v0.5.10rc0-rocm720-mi35x-20260413
   model: zai-org/GLM-5-FP8
   model-prefix: glm5
   runner: mi355x

From 7c4289f1870a3dda9ca5b7c28bbf2a9826a130ee Mon Sep 17 00:00:00 2001
From: Chun Fang <chun.fang@amd.com>
Date: Wed, 15 Apr 2026 07:20:32 +0000
Subject: [PATCH 5/5] Upgrade GLM5 FP8 MI355X SGLang image to
 v0.5.10rc0-rocm720-mi35x-20260413

Updated the perf-changelog too
---
 .github/configs/amd-master.yaml | 2 +-
 perf-changelog.yaml             | 3 ++-
 2 files changed, 3 insertions(+), 2 deletions(-)

diff --git a/.github/configs/amd-master.yaml b/.github/configs/amd-master.yaml
index 9441e62aa..084893e11 100644
--- a/.github/configs/amd-master.yaml
+++ b/.github/configs/amd-master.yaml
@@ -242,7 +242,7 @@ qwen3.5-fp8-mi300x-sglang:
     - { tp: 8, conc-start: 4, conc-end: 64 }
 
 glm5-fp8-mi355x-sglang:
-  image: rocm/sgl-dev:v0.5.10rc0-rocm720-mi35x-20260413
+  image: lmsysorg/sglang-rocm:v0.5.10rc0-rocm720-mi35x-20260413
   model: zai-org/GLM-5-FP8
   model-prefix: glm5
   runner: mi355x
diff --git a/perf-changelog.yaml b/perf-changelog.yaml
index 5e605f9d1..73f0d86ce 100644
--- a/perf-changelog.yaml
+++ b/perf-changelog.yaml
@@ -1356,7 +1356,8 @@
 - config-keys:
     - glm5-fp8-mi355x-sglang
   description:
-    - "Upgrade GLM5 FP8 MI355X SGLang image to v0.5.10"
+    - "Upgrade GLM5 FP8 MI355X SGLang image to v0.5.10rc0-rocm720-mi35x-20260413"
+    - "Set --kv-cache-dtype fp8_e4m3 and --disable-radix-cache"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/1023
 
 - config-keys: