vLLM container out of date for new models

eugr · October 30, 2025, 8:39pm

Apparently, you need to specify 12.0f for CUDA 13: source.

Also, to avoid undefined symbol errors, you need to apply the patch from that unmerged pull request (although if you set 12.0f, I’m not sure if you still need the patch - I’m trying to compile it without it now. EDIT: nope, still needed):

cat <<'EOF' | patch -p1
diff --git a/CMakeLists.txt b/CMakeLists.txt
index 7cb94f919..f860e533e 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -594,9 +594,9 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
 
   # FP4 Archs and flags
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 13.0)
-    cuda_archs_loose_intersection(FP4_ARCHS "10.0f;11.0f;12.0f" "${CUDA_ARCHS}")
+    cuda_archs_loose_intersection(FP4_ARCHS "10.0f" "${CUDA_ARCHS}")
   else()
-    cuda_archs_loose_intersection(FP4_ARCHS "10.0a;10.1a;12.0a;12.1a" "${CUDA_ARCHS}")
+    cuda_archs_loose_intersection(FP4_ARCHS "10.0a;10.1a" "${CUDA_ARCHS}")
   endif()
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 12.8 AND FP4_ARCHS)
     set(SRCS
@@ -668,7 +668,7 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   endif()
 
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 13.0)
-    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0f;11.0f" "${CUDA_ARCHS}")
+    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0f" "${CUDA_ARCHS}")
   else()
     cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0a" "${CUDA_ARCHS}")
   endif()
@@ -716,9 +716,9 @@ if(VLLM_GPU_LANG STREQUAL "CUDA")
   endif()
 
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 13.0)
-    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0f;11.0f;12.0f" "${CUDA_ARCHS}")
+    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0f" "${CUDA_ARCHS}")
   else()
-    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0a;10.1a;10.3a;12.0a;12.1a" "${CUDA_ARCHS}")
+    cuda_archs_loose_intersection(SCALED_MM_ARCHS "10.0a;10.1a;10.3a" "${CUDA_ARCHS}")
   endif()
   if(${CMAKE_CUDA_COMPILER_VERSION} VERSION_GREATER_EQUAL 12.8 AND SCALED_MM_ARCHS)
     set(SRCS "csrc/quantization/w8a8/cutlass/moe/blockwise_scaled_group_mm_sm100.cu")
EOF

Please note that you need to set up the following environment variables BEFORE compiling vllm, otherwise CMake won’t pick up arch:

export TORCH_CUDA_ARCH_LIST=12.0f # CUDA 13 needs 12.1f
export TRITON_PTXAS_PATH=/usr/local/cuda/bin/ptxas

There is also an existing thread on this: Run VLLM in Spark - #33 by eugr

Topic		Replies	Views
Run VLLM in Spark DGX Spark / GB10	145	11549	April 1, 2026
I'd like to learn how to use the latest vLLM on DGX Spark DGX Spark / GB10 cuda	9	2084	November 29, 2025
vLLM >= 0.12 on DGX Spark? DGX Spark / GB10 cuda , containers , llm , dgx	2	364	December 16, 2025
vLLM containers DGX Spark / GB10	44	1289	March 28, 2026
Run VLLM in Thor from VLLM Repository Jetson Thor	15	2026	November 29, 2025
Please fix the official nvidia/vllm docker container DGX Spark / GB10	1	285	January 24, 2026
VLLM -- the $150M train wreck? DGX Spark / GB10 llama	24	1151	February 27, 2026
vLLM Container issue in DGX Spark DGX Spark / GB10	5	468	November 11, 2025
New NGC vLLM container image (vllm:26.01-py3) DGX Spark / GB10 cudnn , dali	4	902	January 31, 2026
vLLM container 25.10-py3 fails to start Jetson Thor nvbugs , generative_ai	13	653	December 8, 2025

vLLM container out of date for new models

Related topics