Techniques to Imporve TensorRT Model Inference Speed

arumugamdeepakkumar · April 30, 2025, 2:31pm

Description

Ways to improve Model Inference Speed

We aim to enhance the inference speed of our object detection model without compromising accuracy.

Current Setup:

Model Task: Object Detection (3 Classes)

Hardware: NVIDIA Jetson (likely AGX Orin)

Input: Single image/frame inference

Model Versions:

PyTorch Version:

Model Size: 88 MB

Inference Latency: ~420 ms per frame

TensorRT Version (Quantized):

Model Size: 90 MB on FP16

Inference Latency: ~200 ms per frame

Objectives:

Further reduce latency to process high throughput (preferably below 100 ms/ per frame inference)
Maintain or minimally impact model accuracy on INT8 quantized version.

Environment

TensorRT Version: 10.3.0.30
GPU Type: Tegra
Nvidia Driver Version: 540.4.0
CUDA Version: 12.6.68
CUDNN Version: 9.3.0.75
Operating System + Version: Ubuntu 22.04
Python Version (if applicable): 3.10.12
Baremetal or Container (if container which image + tag): ultralytics/ultralytics:latest-jetson-jetpack6

Topic		Replies	Views
[TensorRT] Model inferencing speed reduction on Jetson Xavier AGX using 2 models Jetson AGX Xavier tensorrt , jetson	5	507	November 24, 2021
Tensorflow running very slow on Nvidia Jetson AGX Orin Jetson AGX Orin tensorflow	3	43	March 4, 2025
Deploying Deep Neural Networks with NVIDIA TensorRT Technical Blog	17	649	October 8, 2017
Post quantization aware training is slower than fp16 and post quantization TensorRT	12	2641	September 25, 2024
Inference is so slow with torch1.6 Jetson Xavier NX nvbugs , pytorch	12	3538	October 23, 2020
Accelerate Generative AI Inference Performance with NVIDIA TensorRT Model Optimizer, Now Publicly Available Technical Blog	4	281	July 16, 2024
TensorRt inference is taking 1.5 sec to inference a single frame.i want to speed up my inference.How can i do that TensorRT tensorrt , cuda , jetson-nano	3	760	March 13, 2023
converting a frozen graph to tensorRT Jetson Nano	5	1788	October 14, 2021
Does network pruning speed up inference speed? TensorRT	6	1683	January 7, 2022
Inference time on jetson nano Jetson AGX Xavier tensorrt , cuda , kernel , jetson-inference	2	940	May 30, 2022

Techniques to Imporve TensorRT Model Inference Speed

Description

Environment

Related topics