Triton server 20.02/20.03 GPU memory leaks [bug https://developer.nvidia.com/nvidia_bug/3061266]

konstantin.sobolev · July 16, 2020, 7:07am

Hi, I trying to use cuda shared memory to communicate with TRITON
My code is based on
server/simple_cuda_shm_client.cc at r20.02 · triton-inference-server/server · GitHub,
but always get GPU memory leaks from 2mb each run to 1GB for complex models.

Model is fixed size
To reproduce memory leaks I used batch 1.
( For other more complex models with dynamic dims/ more batches - leaks more)

triton server log:

model config:
id: “inference:0”
version: “1.11.0”
uptime_ns: 560023510734
model_status {
key: “Deeplab”
value {
config {
name: “Deeplab”
platform: “tensorrt_plan”
version_policy {
latest {
num_versions: 1
}
}
max_batch_size: 4
input {
name: “input_1_9:0”
data_type: TYPE_FP32
dims: 512
dims: 512
dims: 3
}
output {
name: “bilinear_upsampling_2_5/ResizeBilinear:0”
data_type: TYPE_FP32
dims: 512
dims: 512
dims: 2
}
instance_group {
name: “Deeplab_0”
count: 1
gpus: 1
kind: KIND_GPU
}
default_model_filename: “model.plan”
dynamic_batching {
preferred_batch_size: 2
preferred_batch_size: 4
max_queue_delay_microseconds: 2000
}
optimization {
input_pinned_memory {
enable: true
}
output_pinned_memory {
enable: true
}
}
}
version_status {
key: 1
value {
ready_state: MODEL_READY
infer_stats {
key: 1
value {
success {
count: 40
total_time_ns: 1224701969
}
compute {
count: 40
total_time_ns: 1215963464
}
queue {
count: 40
total_time_ns: 4083860
}
}
}
model_execution_count: 20
model_inference_count: 40
ready_state_reason {
}
last_inference_timestamp_milliseconds: 13928679385895380608
}
}
}
}
ready_state: SERVER_READY

Topic		Replies	Views
GPU memory leak - With dynamic batch models Triton Inference Server (archived)	0	649	September 9, 2020
Triton server logs DeepStream SDK	7	5451	May 16, 2022
Is there a memory leak in CUDA CUDA Programming and Performance	6	7224	June 11, 2008
Triton server GPU memory leak for grpc cuda shared memory request GPU - Hardware cuda , inference-server-triton , gpu	3	172	August 8, 2025
Memory leak in IExecutionContext TRT6 TensorRT	1	1299	March 2, 2020
DeepStream 6.0.1 Triton GRPC memory leak DeepStream SDK nvbugs	23	2962	September 2, 2022
TensorRT 4.0.1.6 memory leaks TensorRT	1	1474	June 4, 2019
Huge memory leak CUDA Programming and Performance	16	5798	July 27, 2016
TensorRT 6 memory leak Jetson AGX Xavier tensorrt	12	2128	October 18, 2021
cudaMemcpy leaks on TK1 Jetson TK1	4	1208	February 24, 2016

Triton server 20.02/20.03 GPU memory leaks [bug https://developer.nvidia.com/nvidia_bug/3061266]

Related topics