Speculative decoding using vLLM on the Nvidia Jetson AGX Orin 64GB dev kit

shahizat · March 9, 2025, 8:06am

Greetings everyone,

If anyone is interested, below is a command to increase token generation output using speculative decoding with vLLM(v0 version - export VLLM_USE_V1=0) on the NVIDIA Jetson AGX Orin 64GB dev kit.

vllm serve \
    meta-llama/Llama-3.1-8B-Instruct \
    --gpu_memory_utilization 0.9 \
    --speculative-model turboderp/Qwama-0.5B-Instruct \
    --use-v2-block-manager \
    --num-speculative-tokens 5 \
    --ngram-prompt-lookup-min 10

Video demostration

Without speculative decoding

vllm serve meta-llama/Llama-3.1-8B-Instruct --gpu_memory_utilization 0.9

Demo video:

Topic		Replies	Views
Boosting LLM Inference Speed Using Speculative Decoding in MLC-LLM on Nvidia Jetson AGX Orin Jetson Projects generative_ai , llama-31-8b-instruct , llama	0	182	November 23, 2024
LLMs token/sec Jetson AGX Orin generative_ai	2	842	April 8, 2024
SOTA inference speed using SGlang and EAGLE-3 speculative decoding on the NVIDIA Jetson AGX Orin Jetson Projects llama-31-8b-instruct , llama	2	195	March 23, 2025
VLM on video running on NVIDIA Jetson Jetson AGX Orin jetson-inference , generative_ai	7	1255	November 3, 2023
Running LLMs with TensorRT-LLM on Nvidia Jetson AGX Orin Dev Kit Jetson Projects jetson , generative_ai	1	423	December 8, 2024
Triton Inference Server + vLLM Backend on the NVIDIA Jetson AGX Orin 64GB Developer Kit Jetson Projects generative_ai	0	296	November 3, 2024
Want to run a Local LLM on Nvidia Jetson AGX Orin Jetson AGX Orin generative_ai	3	2620	July 17, 2024
Small LLMs and Mini VLMs on Orin Nano Jetson Projects generative_ai	0	1311	March 5, 2024
Running LMdeploy inference engine on the NVIDIA Jetson AGX Orin Devkit Jetson Projects jetson , llama-31-8b-instruct , llama	2	83	January 14, 2025
TensorRT-LLM for Jetson Announcements generative_ai	0	131	November 13, 2024

Speculative decoding using vLLM on the Nvidia Jetson AGX Orin 64GB dev kit

Related topics