Iโm getting some very strange, repetitive results: the tests consistently alternate between passing and failing.
tool-eval-bench --short --seed 42 --context-pressure-sweep 0.3-1.0 --scenarios TC-01 --sweep-steps 14 --context-size 260000
logs
tool-eval-bench --short --seed 42 --context-pressure-sweep 0.3-1.0 --scenarios TC-01 --sweep-steps 14 --context-size 260000 --base-url http://192.168.88.138:8888
๐ง Tool-Call Benchmark
Server: http://192.168.88.138:8888
Querying http://192.168.88.138:8888/v1/models โฆ โ /models/qwen (alias: my-qwen35)
โ Warm-up complete (295 ms)
๐ Engine: vLLM 0.20.2.dev0+g132765e35.d20260506
โก Context Pressure Sweep โ /models/qwen
Backend: vllm | Server: http://192.168.88.138:8888
Range: 30% โ 100% | 14 levels | 1 scenario
Context window: 260,000 tokens
โก Sweep 1/14: 30% pressure โโโโโโโโโโโโโโโโโโโโ โ
100%
โก Sweep 2/14: 35% pressure โโโโโโโโโโโโโโโโโโโโ โ 0%
โก Sweep 3/14: 41% pressure โโโโโโโโโโโโโโโโโโโโ โ
100%
โก Sweep 4/14: 46% pressure โโโโโโโโโโโโโโโโโโโโ โ 0%
โก Sweep 5/14: 52% pressure โโโโโโโโโโโโโโโโโโโโ โ
100%
โก Sweep 6/14: 57% pressure โโโโโโโโโโโโโโโโโโโโ โ 0%
โก Sweep 7/14: 62% pressure โโโโโโโโโโโโโโโโโโโโ ^C
Interrupted.
โญโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โก Context Pressure Sweep Results โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ
โ โ
โ TC-01 โ
โ 30% โ
100% โโโโโโโโโโโโโโโโโโโโ โ
โ 35% โ 0% โโโโโโโโโโโโโโโโโโโโ โ
โ 41% โ
100% โโโโโโโโโโโโโโโโโโโโ โ
โ 46% โ 0% โโโโโโโโโโโโโโโโโโโโ โ
โ 52% โ
100% โโโโโโโโโโโโโโโโโโโโ โ
โ 57% โ 0% โโโโโโโโโโโโโโโโโโโโ โ
โ โ
โ Breaking point: 52% (all scenarios pass) โ
โ Degradation: 35% (first partial/fail) โ
โ โ
โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ
tool-eval-bench --short --seed 42 --context-pressure-sweep 0.3-1.0 --scenarios TC-01 --sweep-steps 14 --context-size 260000 --base-url http://192.168.88.138:8888
๐ง Tool-Call Benchmark
Server: http://192.168.88.138:8888
Querying http://192.168.88.138:8888/v1/models โฆ โ /models/qwen (alias: my-qwen35)
โ Warm-up complete (1813 ms)
๐ Engine: vLLM 0.20.2.dev0+g132765e35.d20260506
โก Context Pressure Sweep โ /models/qwen
Backend: vllm | Server: http://192.168.88.138:8888
Range: 30% โ 100% | 14 levels | 1 scenario
Context window: 260,000 tokens
โก Sweep 1/14: 30% pressure โโโโโโโโโโโโโโโโโโโโ โ
100%
โก Sweep 2/14: 35% pressure โโโโโโโโโโโโโโโโโโโโ โ 0%
โก Sweep 3/14: 41% pressure โโโโโโโโโโโโโโโโโโโโ โ
100%
โก Sweep 4/14: 46% pressure โโโโโโโโโโโโโโโโโโโโ โ 0%
โก Sweep 5/14: 52% pressure โโโโโโโโโโโโโโโโโโโโ โ
100%
โก Sweep 6/14: 57% pressure โโโโโโโโโโโโโโโโโโโโ โ 0%
โก Sweep 7/14: 62% pressure โโโโโโโโโโโโโโโโโโโโ ^C
Interrupted.
โญโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โก Context Pressure Sweep Results โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ
โ โ
โ TC-01 โ
โ 30% โ
100% โโโโโโโโโโโโโโโโโโโโ โ
โ 35% โ 0% โโโโโโโโโโโโโโโโโโโโ โ
โ 41% โ
100% โโโโโโโโโโโโโโโโโโโโ โ
โ 46% โ 0% โโโโโโโโโโโโโโโโโโโโ โ
โ 52% โ
100% โโโโโโโโโโโโโโโโโโโโ โ
โ 57% โ 0% โโโโโโโโโโโโโโโโโโโโ โ
โ โ
โ Breaking point: 52% (all scenarios pass) โ
โ Degradation: 35% (first partial/fail) โ
โ โ
โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ
tool-eval-bench --short --seed 42 --context-pressure-sweep 0.3-1.0 --scenarios TC-01 --sweep-steps 14 --context-size 260000 --base-url http://192.168.88.138:8888
๐ง Tool-Call Benchmark
Server: http://192.168.88.138:8888
Querying http://192.168.88.138:8888/v1/models โฆ โ /models/qwen (alias: my-minimax)
โ Warm-up complete (20302 ms โ JIT/CUDA graph compilation on first request)
๐ Engine: vLLM 0.20.2.dev0+g132765e35.d20260506
โก Context Pressure Sweep โ /models/qwen
Backend: vllm | Server: http://192.168.88.138:8888
Range: 30% โ 100% | 14 levels | 1 scenario
Context window: 260,000 tokens
โก Sweep 1/14: 30% pressure โโโโโโโโโโโโโโโโโโโโ โ
100%
โก Sweep 2/14: 35% pressure โโโโโโโโโโโโโโโโโโโโ โ 0%
โก Sweep 3/14: 41% pressure โโโโโโโโโโโโโโโโโโโโ โ
100%
โก Sweep 4/14: 46% pressure โโโโโโโโโโโโโโโโโโโโ โ 0%
โก Sweep 5/14: 52% pressure โโโโโโโโโโโโโโโโโโโโ โ
100%
โก Sweep 6/14: 57% pressure โโโโโโโโโโโโโโโโโโโโ โ 0%
โก Sweep 7/14: 62% pressure โโโโโโโโโโโโโโโโโโโโ ^C
Interrupted.
โญโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โก Context Pressure Sweep Results โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ
โ โ
โ TC-01 โ
โ 30% โ
100% โโโโโโโโโโโโโโโโโโโโ โ
โ 35% โ 0% โโโโโโโโโโโโโโโโโโโโ โ
โ 41% โ
100% โโโโโโโโโโโโโโโโโโโโ โ
โ 46% โ 0% โโโโโโโโโโโโโโโโโโโโ โ
โ 52% โ
100% โโโโโโโโโโโโโโโโโโโโ โ
โ 57% โ 0% โโโโโโโโโโโโโโโโโโโโ โ
โ โ
โ Breaking point: 52% (all scenarios pass) โ
โ Degradation: 35% (first partial/fail) โ
โ โ
โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ
tool-eval-bench --short --seed 42 --context-pressure-sweep 0.3-1.0 --scenarios TC-01 --sweep-steps 14 --context-size 260000 --base-url http://192.168.88.138:8888
๐ง Tool-Call Benchmark
Server: http://192.168.88.138:8888
Querying http://192.168.88.138:8888/v1/models โฆ โ /models/Qwen/Qwen3-Coder-Next-FP8 (alias: my-qwen)
โ Warm-up complete (756 ms)
๐ Engine: vLLM 0.19.0+6bc3197f.nv26.04.48680843
โก Context Pressure Sweep โ /models/Qwen/Qwen3-Coder-Next-FP8
Backend: vllm | Server: http://192.168.88.138:8888
Range: 30% โ 100% | 14 levels | 1 scenario
Context window: 260,000 tokens
โก Sweep 1/14: 30% pressure โโโโโโโโโโโโโโโโโโโโ โ
100%
โก Sweep 2/14: 35% pressure โโโโโโโโโโโโโโโโโโโโ โ 0%
โก Sweep 3/14: 41% pressure โโโโโโโโโโโโโโโโโโโโ โ
100%
โก Sweep 4/14: 46% pressure โโโโโโโโโโโโโโโโโโโโ โ 0%
โก Sweep 5/14: 52% pressure โโโโโโโโโโโโโโโโโโโโ โ
100%
โก Sweep 6/14: 57% pressure โโโโโโโโโโโโโโโโโโโโ โ 0%
โก Sweep 7/14: 62% pressure โโโโโโโโโโโโโโโโโโโโ ^C
Interrupted.
โญโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ โก Context Pressure Sweep Results โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ
โ โ
โ TC-01 โ
โ 30% โ
100% โโโโโโโโโโโโโโโโโโโโ โ
โ 35% โ 0% โโโโโโโโโโโโโโโโโโโโ โ
โ 41% โ
100% โโโโโโโโโโโโโโโโโโโโ โ
โ 46% โ 0% โโโโโโโโโโโโโโโโโโโโ โ
โ 52% โ
100% โโโโโโโโโโโโโโโโโโโโ โ
โ 57% โ 0% โโโโโโโโโโโโโโโโโโโโ โ
โ โ
โ Breaking point: 52% (all scenarios pass) โ
โ Degradation: 35% (first partial/fail) โ
โ โ
โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ