Qwen/Qwen3.6-35B-A3B (and FP8) has landed

serapis · April 16, 2026, 3:25pm

Here we go for 2x DGX Spark performance (revised):

vllm serve Qwen/Qwen3.6-35B-A3B-FP8 \
    --host 0.0.0.0 \
    --port 8080 \
    --gpu-memory-utilization 0.8 \
    --max-model-len 262144 \
    --max-num-batched-tokens 8192 \
    --max-num-seqs 4 \
    --enable-prefix-caching \
    --enable-chunked-prefill \
    --attention-backend flashinfer \
    --load-format instanttensor \
    --trust-remote-code \
    --dtype auto \
    --kv-cache-dtype fp8 \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder \
    --reasoning-parser qwen3 \
    --tensor-parallel-size 2 \
    --distributed-executor-backend ray

Benchmarks:
100% successful completion at ToolCall-15.

| model                    |             test |              t/s |     peak t/s |        ttfr (ms) |     est_ppt (ms) |    e2e_ttft (ms) |
|:-------------------------|-----------------:|-----------------:|-------------:|-----------------:|-----------------:|-----------------:|
| Qwen/Qwen3.6-35B-A3B-FP8 |           pp2048 | 7824.25 ± 162.29 |              |    263.59 ± 5.42 |    261.95 ± 5.42 |    263.65 ± 5.42 |
| Qwen/Qwen3.6-35B-A3B-FP8 |            tg128 |     77.74 ± 0.44 | 78.33 ± 0.47 |                  |                  |                  |
| Qwen/Qwen3.6-35B-A3B-FP8 |   pp2048 @ d4096 |  8496.23 ± 73.66 |              |    724.88 ± 6.36 |    723.24 ± 6.36 |    724.95 ± 6.36 |
| Qwen/Qwen3.6-35B-A3B-FP8 |    tg128 @ d4096 |     76.44 ± 0.09 | 77.00 ± 0.00 |                  |                  |                  |
| Qwen/Qwen3.6-35B-A3B-FP8 |   pp2048 @ d8192 |  8403.24 ± 38.07 |              |   1220.28 ± 5.59 |   1218.64 ± 5.59 |   1220.35 ± 5.59 |
| Qwen/Qwen3.6-35B-A3B-FP8 |    tg128 @ d8192 |     75.76 ± 0.07 | 76.00 ± 0.00 |                  |                  |                  |
| Qwen/Qwen3.6-35B-A3B-FP8 |  pp2048 @ d16384 |  8217.19 ± 12.29 |              |   2244.87 ± 3.36 |   2243.23 ± 3.36 |   2244.93 ± 3.37 |
| Qwen/Qwen3.6-35B-A3B-FP8 |   tg128 @ d16384 |     74.79 ± 0.08 | 75.33 ± 0.47 |                  |                  |                  |
| Qwen/Qwen3.6-35B-A3B-FP8 |  pp2048 @ d32768 |   7433.69 ± 7.82 |              |   4685.37 ± 4.98 |   4683.73 ± 4.98 |   4685.42 ± 4.97 |
| Qwen/Qwen3.6-35B-A3B-FP8 |   tg128 @ d32768 |     73.40 ± 0.07 | 74.00 ± 0.00 |                  |                  |                  |
| Qwen/Qwen3.6-35B-A3B-FP8 |  pp2048 @ d65536 |   6310.26 ± 8.14 |              | 10712.00 ± 13.83 | 10710.35 ± 13.83 | 10712.06 ± 13.84 |
| Qwen/Qwen3.6-35B-A3B-FP8 |   tg128 @ d65536 |     69.90 ± 0.04 | 71.00 ± 0.00 |                  |                  |                  |
| Qwen/Qwen3.6-35B-A3B-FP8 | pp2048 @ d131072 |  4672.69 ± 15.40 |              | 28491.11 ± 93.91 | 28489.47 ± 93.91 | 28491.18 ± 93.92 |
| Qwen/Qwen3.6-35B-A3B-FP8 |  tg128 @ d131072 |     64.28 ± 0.41 | 65.33 ± 0.47 |                  |                  |                  |

llama-benchy (0.3.5)
date: 2026-04-16 17:59:04 | latency mode: api

Topic		Replies	Views
Qwen3.5-122B-A10B on single Spark: up to 51 tok/s (v2.1 — patches + quick-start + benchmark) DGX Spark / GB10 cuda , performance , docker , performance-tuning , llm	322	9278	April 22, 2026
Qwen/Qwen3.5-122B-A10B - Alibaba/Qwen thought about us... :-D DGX Spark / GB10	340	14962	March 24, 2026
Does Qwen3.5-35B-A3B on GB10 leave a lot of performance on the table? DGX Spark / GB10 agentic-ai	40	4881	March 16, 2026
Qwen3.5 27B optimisation thread starting at 30+ t/s TP=1 DGX Spark / GB10 llama , agentic-ai	18	1234	April 16, 2026
HOW-TO: Run Qwen3-Coder-Next on Spark DGX Spark / GB10 llama	92	8696	March 24, 2026
Qwen3.5-122B-A10B NVFP4 Quantized for DGX Spark — 234GB → 75GB, Runs on 128GB DGX Spark / GB10 Projects	44	9046	April 9, 2026
Qwen3.5-35B-A3B optimizations on single Spark DGX Spark / GB10 Projects	39	1333	April 20, 2026
Qwen3.5-397B-A17B run in dual spark! but I have a concern DGX Spark / GB10	229	6880	April 20, 2026
Bfloat16 Quality = Speed? DGX Spark / GB10	24	869	April 21, 2026
RedHatAI/Qwen3.5-122B-A10B-NVFP4 seems to be the best option for a single Spark DGX Spark / GB10 Projects llm	74	4695	April 11, 2026

Qwen/Qwen3.6-35B-A3B (and FP8) has landed

Related topics