-
Notifications
You must be signed in to change notification settings - Fork 193
Add DSv4-Pro FP4 GB200 SGLang disagg config #1675
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Changes from all commits
9d916cf
2b6a334
1786080
567f0ec
70cc8c1
166033f
124bcbd
9f9cbc6
b059fab
7a1535c
7d4f696
File filter
Filter by extension
Conversations
Jump to
Diff view
Diff view
There are no files selected for viewing
| Original file line number | Diff line number | Diff line change | ||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| @@ -0,0 +1,156 @@ | ||||||||||||||||||
| name: "disagg-gb200-1p1d-dep8-dep16-6-c512" | ||||||||||||||||||
|
|
||||||||||||||||||
|
|
||||||||||||||||||
| model: | ||||||||||||||||||
| path: "deepseek-v4-pro" | ||||||||||||||||||
| container: "lmsysorg/sglang:nightly-dev-cu13-20260528-0abe6a85" | ||||||||||||||||||
| precision: "fp4" | ||||||||||||||||||
|
|
||||||||||||||||||
| dynamo: | ||||||||||||||||||
| hash: "92f5b3b8d7dd5ab9179d4b1034bd2c1c0803693e" | ||||||||||||||||||
| install: true | ||||||||||||||||||
|
|
||||||||||||||||||
| sbatch_directives: | ||||||||||||||||||
| cpus-per-task: "144" | ||||||||||||||||||
| mem: "0" | ||||||||||||||||||
|
|
||||||||||||||||||
| resources: | ||||||||||||||||||
| gpu_type: "gb200" | ||||||||||||||||||
| gpus_per_node: 4 | ||||||||||||||||||
| prefill_nodes: 2 | ||||||||||||||||||
| prefill_workers: 1 | ||||||||||||||||||
| gpus_per_prefill: 8 | ||||||||||||||||||
| decode_nodes: 4 | ||||||||||||||||||
| decode_workers: 1 | ||||||||||||||||||
| gpus_per_decode: 16 | ||||||||||||||||||
|
|
||||||||||||||||||
| frontend: | ||||||||||||||||||
| type: dynamo | ||||||||||||||||||
| enable_multiple_frontends: false | ||||||||||||||||||
| env: | ||||||||||||||||||
| DYN_ROUTER_LOAD_BLOCK_SIZE: "1" | ||||||||||||||||||
| args: | ||||||||||||||||||
| router-mode: "kv" | ||||||||||||||||||
| router-kv-overlap-score-weight: 0 | ||||||||||||||||||
| router-queue-threshold: 64 | ||||||||||||||||||
| router-temperature: 0.5 | ||||||||||||||||||
| no-kv-events: true | ||||||||||||||||||
|
|
||||||||||||||||||
| backend: | ||||||||||||||||||
| type: sglang | ||||||||||||||||||
|
|
||||||||||||||||||
| prefill_environment: | ||||||||||||||||||
| PYTHONUNBUFFERED: "1" | ||||||||||||||||||
| SGLANG_RADIX_FORCE_MISS: "1" | ||||||||||||||||||
| SGLANG_JIT_DEEPGEMM_FAST_WARMUP: "1" | ||||||||||||||||||
| SGLANG_ENABLE_THINKING: "1" | ||||||||||||||||||
| SGLANG_REASONING_EFFORT: "max" | ||||||||||||||||||
| SGLANG_OPT_SWA_SPLIT_LEAF_ON_INSERT: "1" | ||||||||||||||||||
| SGLANG_OPT_SWA_EVICT_DROP_PAGE_MARGIN: "1" | ||||||||||||||||||
| SGLANG_OPT_FIX_HASH_MEGA_MOE: "1" | ||||||||||||||||||
| SGLANG_OPT_USE_FAST_MASK_EP: "1" | ||||||||||||||||||
| SGLANG_OPT_FIX_MEGA_MOE_MEMORY: "1" | ||||||||||||||||||
| SGLANG_OPT_DEEPGEMM_MEGA_MOE_NUM_MAX_TOKENS_PER_RANK: "8192" | ||||||||||||||||||
| SGLANG_OPT_DEEPGEMM_MEGA_MOE_USE_FP4_ACTS: "1" | ||||||||||||||||||
| SGLANG_OPT_DEEPGEMM_MEGA_MOE_USE_MXF4_KIND: "1" | ||||||||||||||||||
| SGLANG_OPT_FIX_NEXTN_MEGA_MOE: "1" | ||||||||||||||||||
| SGLANG_OPT_USE_ONLINE_COMPRESS: "1" | ||||||||||||||||||
| SGLANG_OPT_FP8_WO_A_GEMM: "1" | ||||||||||||||||||
| NCCL_MNNVL_ENABLE: "1" | ||||||||||||||||||
| NCCL_CUMEM_ENABLE: "1" | ||||||||||||||||||
| SGLANG_MOONCAKE_CUSTOM_MEM_POOL: "True" | ||||||||||||||||||
| MC_FORCE_MNNVL: "1" | ||||||||||||||||||
| SGLANG_DISAGGREGATION_BOOTSTRAP_TIMEOUT: "100000" | ||||||||||||||||||
| SGLANG_DISAGGREGATION_WAITING_TIMEOUT: "100000" | ||||||||||||||||||
| SGLANG_OPT_SWA_RELEASE_LEAF_LOCK_AFTER_WINDOW: "1" | ||||||||||||||||||
| DYN_SKIP_SGLANG_LOG_FORMATTING: "1" | ||||||||||||||||||
| SGLANG_LOG_FORWARD_ITERS: "1" | ||||||||||||||||||
| SGLANG_LOG_MS: "1" | ||||||||||||||||||
| SGLANG_REQUEST_STATE_WAIT_TIMEOUT: "60" | ||||||||||||||||||
|
|
||||||||||||||||||
| decode_environment: | ||||||||||||||||||
| PYTHONUNBUFFERED: "1" | ||||||||||||||||||
| SGLANG_RADIX_FORCE_MISS: "1" | ||||||||||||||||||
| SGLANG_JIT_DEEPGEMM_FAST_WARMUP: "1" | ||||||||||||||||||
| SGLANG_ENABLE_THINKING: "1" | ||||||||||||||||||
| SGLANG_REASONING_EFFORT: "max" | ||||||||||||||||||
| SGLANG_OPT_SWA_SPLIT_LEAF_ON_INSERT: "1" | ||||||||||||||||||
| SGLANG_OPT_SWA_EVICT_DROP_PAGE_MARGIN: "1" | ||||||||||||||||||
| SGLANG_OPT_FIX_HASH_MEGA_MOE: "1" | ||||||||||||||||||
| SGLANG_OPT_USE_FAST_MASK_EP: "1" | ||||||||||||||||||
| SGLANG_OPT_FIX_MEGA_MOE_MEMORY: "1" | ||||||||||||||||||
| SGLANG_OPT_DEEPGEMM_MEGA_MOE_NUM_MAX_TOKENS_PER_RANK: "1280" | ||||||||||||||||||
| SGLANG_OPT_DEEPGEMM_MEGA_MOE_USE_FP4_ACTS: "1" | ||||||||||||||||||
| SGLANG_OPT_DEEPGEMM_MEGA_MOE_USE_MXF4_KIND: "1" | ||||||||||||||||||
| SGLANG_OPT_FIX_NEXTN_MEGA_MOE: "1" | ||||||||||||||||||
| SGLANG_OPT_USE_ONLINE_COMPRESS: "1" | ||||||||||||||||||
| NCCL_MNNVL_ENABLE: "1" | ||||||||||||||||||
| NCCL_CUMEM_ENABLE: "1" | ||||||||||||||||||
| SGLANG_MOONCAKE_CUSTOM_MEM_POOL: "True" | ||||||||||||||||||
| SGLANG_CLIP_MAX_NEW_TOKENS_ESTIMATION: "8" | ||||||||||||||||||
| MC_FORCE_MNNVL: "1" | ||||||||||||||||||
| SGLANG_DISAGGREGATION_BOOTSTRAP_TIMEOUT: "100000" | ||||||||||||||||||
| SGLANG_DISAGGREGATION_WAITING_TIMEOUT: "100000" | ||||||||||||||||||
| SGLANG_OPT_SWA_RELEASE_LEAF_LOCK_AFTER_WINDOW: "1" | ||||||||||||||||||
| DYN_SKIP_SGLANG_LOG_FORMATTING: "1" | ||||||||||||||||||
| SGLANG_LOG_FORWARD_ITERS: "1" | ||||||||||||||||||
| SGLANG_LOG_MS: "1" | ||||||||||||||||||
| SGLANG_REQUEST_STATE_WAIT_TIMEOUT: "60" | ||||||||||||||||||
|
|
||||||||||||||||||
| sglang_config: | ||||||||||||||||||
| prefill: | ||||||||||||||||||
| served-model-name: "deepseek-ai/DeepSeek-V4-Pro" | ||||||||||||||||||
| trust-remote-code: true | ||||||||||||||||||
| watchdog-timeout: 86400 | ||||||||||||||||||
| skip-tokenizer-init: true | ||||||||||||||||||
| stream-interval: 60 | ||||||||||||||||||
|
|
||||||||||||||||||
| tensor-parallel-size: 8 | ||||||||||||||||||
| data-parallel-size: 8 | ||||||||||||||||||
| expert-parallel-size: 8 | ||||||||||||||||||
|
|
||||||||||||||||||
| enable-dp-attention: true | ||||||||||||||||||
| moe-a2a-backend: "megamoe" | ||||||||||||||||||
| deepep-config: '{"normal_dispatch":{"num_sms":88,"num_max_nvl_chunked_send_tokens":28,"num_max_nvl_chunked_recv_tokens":512},"normal_combine": {"num_sms":88,"num_max_nvl_chunked_send_tokens":16,"num_max_nvl_chunked_recv_tokens":512}}' | ||||||||||||||||||
| moe-dense-tp-size: 1 | ||||||||||||||||||
|
|
||||||||||||||||||
| disaggregation-mode: "prefill" | ||||||||||||||||||
| disaggregation-transfer-backend: mooncake | ||||||||||||||||||
|
|
||||||||||||||||||
| mem-fraction-static: 0.80 | ||||||||||||||||||
| max-running-requests: 1024 | ||||||||||||||||||
| chunked-prefill-size: 65536 | ||||||||||||||||||
|
|
||||||||||||||||||
| decode: | ||||||||||||||||||
| served-model-name: "deepseek-ai/DeepSeek-V4-Pro" | ||||||||||||||||||
| trust-remote-code: true | ||||||||||||||||||
| watchdog-timeout: 86400 | ||||||||||||||||||
| skip-tokenizer-init: true | ||||||||||||||||||
| stream-interval: 60 | ||||||||||||||||||
|
|
||||||||||||||||||
| load-balance-method: "total_requests" | ||||||||||||||||||
| moe-a2a-backend: "megamoe" | ||||||||||||||||||
|
|
||||||||||||||||||
| disaggregation-mode: "decode" | ||||||||||||||||||
| disaggregation-transfer-backend: mooncake | ||||||||||||||||||
| disaggregation-decode-polling-interval: 8 | ||||||||||||||||||
|
|
||||||||||||||||||
| mem-fraction-static: 0.94 | ||||||||||||||||||
| swa-full-tokens-ratio: 0.056 | ||||||||||||||||||
| context-length: 9216 | ||||||||||||||||||
| tensor-parallel-size: 16 | ||||||||||||||||||
| data-parallel-size: 16 | ||||||||||||||||||
| expert-parallel-size: 16 | ||||||||||||||||||
| enable-dp-attention: true | ||||||||||||||||||
| enable-dp-lm-head: true | ||||||||||||||||||
| max-running-requests: 21504 | ||||||||||||||||||
| cuda-graph-max-bs: 1280 | ||||||||||||||||||
|
|
||||||||||||||||||
|
|
||||||||||||||||||
| benchmark: | ||||||||||||||||||
| type: "sa-bench" | ||||||||||||||||||
| isl: 8192 | ||||||||||||||||||
| osl: 1024 | ||||||||||||||||||
| concurrencies: "512" | ||||||||||||||||||
| req_rate: "inf" | ||||||||||||||||||
| use_chat_template: false | ||||||||||||||||||
|
Comment on lines
+151
to
+156
Contributor
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. 🔴 All 8 new GB200 yaml files omit Extended reasoning...What the bug isThe benchmark:
type: "sa-bench"
isl: 8192
osl: 1024
concurrencies: "1024"
req_rate: "inf"
use_chat_template: falseThe
That is 14/14 existing configs setting How it manifests7 of the 8 new wideep configs (everything except Even the Why existing code does not prevent itThe Step-by-step proof of impact
FixAdd one line to each of the 8 new yaml benchmark:
type: "sa-bench"
isl: 8192
osl: 1024
concurrencies: "..."
req_rate: "inf"
use_chat_template: false
custom_tokenizer: "sa_bench_tokenizers.sglang_deepseek_v4.SGLangDeepseekV4Tokenizer" |
||||||||||||||||||
Uh oh!
There was an error while loading. Please reload this page.