Qwen3.5-122B-A10B on single Spark: up to 51 tok/s (v2.1 — patches + quick-start + benchmark)

p1140 · April 29, 2026, 9:47am

dflash added pr to vllm ([Spec Decode] Add Sliding Window Attention support to DFlash drafter by jianc99 · Pull Request #40898 · vllm-project/vllm · GitHub), try

./build-and-copy.sh -t vllm-node --apply-vllm-pr 40898 -c

qwen3.5-122b-fp8, tp=2. dflash=15

── Run 1/2 ──────────────────────────────────────
  [Q&A] 256 tokens in 5.27s = 48.5 tok/s (prompt: 23)
  [Code] 512 tokens in 8.69s = 58.9 tok/s (prompt: 30)
  [JSON] 1024 tokens in 21.26s = 48.1 tok/s (prompt: 48)
  [Math] 64 tokens in 1.29s = 49.6 tok/s (prompt: 29)
  [LongCode] 2048 tokens in 29.94s = 68.4 tok/s (prompt: 37)

── Run 2/2 ──────────────────────────────────────
  [Q&A] 256 tokens in 4.94s = 51.8 tok/s (prompt: 23)
  [Code] 512 tokens in 8.39s = 61.0 tok/s (prompt: 30)
  [JSON] 1024 tokens in 20.80s = 49.2 tok/s (prompt: 48)
  [Math] 64 tokens in 1.27s = 50.3 tok/s (prompt: 29)
  [LongCode] 2048 tokens in 29.84s = 68.6 tok/s (prompt: 37)

Topic		Replies	Views
Qwen/Qwen3.5-122B-A10B - Alibaba/Qwen thought about us... :-D DGX Spark / GB10	340	17089	March 24, 2026
Qwen/Qwen3.6-35B-A3B (and FP8) has landed DGX Spark / GB10 agentic-ai	309	28219	June 22, 2026
Qwen3.5-122B-A10B NVFP4 Quantized for DGX Spark — 234GB → 75GB, Runs on 128GB DGX Spark / GB10 Projects	44	11584	April 9, 2026
Does Qwen3.5-35B-A3B on GB10 leave a lot of performance on the table? DGX Spark / GB10 agentic-ai	40	6161	March 16, 2026
Qwen3.5-35B-A3B optimizations on single Spark DGX Spark / GB10 Projects	48	3417	May 22, 2026
What's the best speed we can get with Qwen 3.6 27B without quantizing? DGX Spark / GB10	55	19155	June 27, 2026
Qwen3.5-122B-A10B on single Spark: 15 → 21.5 tok/s with hybrid GPTQ-INT4 + FP8 dense layers (https://github.com/rmstxrx/vllm-hybrid-quant) DGX Spark / GB10 cuda	9	783	March 20, 2026
Qwen3.5-397B-A17B run in dual spark! but I have a concern DGX Spark / GB10	236	9507	June 6, 2026
Qwen3.5-397B-A17B + DGX Spark (duo) DGX Spark / GB10 Projects	62	6297	June 14, 2026
HOW-TO: Run Qwen3-Coder-Next on Spark DGX Spark / GB10 llama	92	10399	March 24, 2026

Qwen3.5-122B-A10B on single Spark: up to 51 tok/s (v2.1 — patches + quick-start + benchmark)

Related topics