Triton Server can't run with GPU

Wenzy · September 5, 2023, 8:58pm

Hello,

I am trying to deploy the models using the Triton Inference Server.

docker run --gpus=1 --rm --net=host -v ${PWD}/model_repository:/models nvcr.io/nvidia/tritonserver:22.09-py3 tritonserver --model-repository=/models

When I try to run the command from Triton Server Github to launch Triton container, I got the following error:

docker: Error response from daemon: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 1, stdout: , stderr: Auto-detected mode as ‘legacy’
nvidia-container-cli: initialization error: load library failed: libnvidia-ml.so.1: cannot open shared object file: no such file or directory: unknown.

If I run it without GPU, it works:

What is the possible reason of this problem？

Thanks!

Environment:
• Hardware Platform (Jetson / GPU)
GPU
• Triton Server Image
22.09-py3
• CUDA Version
12.0
• Docker Version
24.0.5

Morganh · September 6, 2023, 2:44am

Please
$ sudo apt-get install -y nvidia-docker2
$ sudo apt install nvidia-driver-525

Wenzy · September 6, 2023, 8:05am

Hi,

thank you for your answer.

Both of them I had already installed, nvidia-docker2 version is 2.13.0-1. Driver version is 525.125.06.

Morganh · September 6, 2023, 9:32am

Can you find the lib?
$ sudo find / -name libnvidia-ml.so.1

Morganh · September 6, 2023, 9:35am

Please add --runtime=nvidia in the docker run command.

Wenzy · September 6, 2023, 10:11am

Yes, it can be found, here are output:

/usr/lib/i386-linux-gnu/libnvidia-ml.so.1
/usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1
find: ‘/run/user/1000/doc’: Permission denied
find: ‘/run/user/1000/gvfs’: Permission denied
/var/snap/docker/common/var-lib-docker/overlay2/20cdacd0d96be0cd178f108fd419b3e05a943f4956de496986539a41e57d2cf3/diff/usr/lib/x86_64-linux-gnu/libnvidia-ml.so.1

Wenzy · September 6, 2023, 10:13am

When I add --runtime=nvidia, there is also an error:

docker: Error response from daemon: Unknown runtime specified nvidia.
See ‘docker run --help’.

Morganh · September 6, 2023, 4:01pm

Could you please double check if you install nvidia-docker on the machine?

Wenzy · September 6, 2023, 9:11pm

Sure.

Morganh · September 7, 2023, 3:04am

Please use the commands mentioned in Error while running action recognition net - #9 by Morganh and retry.

Wenzy · September 10, 2023, 4:47pm

Hi Morganh,

I’ve retried these commands, they actually have been run before, so the issue still exists.

Morganh · September 11, 2023, 5:56am

Can you try below and share the result?
$ docker run --rm --runtime=nvidia --gpus all nvidia/cuda:11.6.2-base-ubuntu20.04 nvidia-smi

and
$ sudo docker run --rm --runtime=nvidia --gpus all nvidia/cuda:11.6.2-base-ubuntu20.04 nvidia-smi

Wenzy · September 12, 2023, 6:38pm

The results are the same as before.

docker: Error response from daemon: Unknown runtime specified nvidia.
See ‘docker run --help’.

Morganh · September 13, 2023, 6:53am

Please try to
sudo apt install -y nvidia-docker2
sudo systemctl daemon-reload
sudo systemctl restart docker

Refer to https://github.com/NVIDIA/nvidia-docker/issues/838

Wenzy · September 13, 2023, 8:18am

It still doesn’t work. As long as I run it with --runtime==nvidia, I get this error:

docker: Error response from daemon: Unknown runtime specified nvidia.
See ‘docker run --help’.

Without --runtime but run with --gpus all, get this:

docker: Error response from daemon: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 1, stdout: , stderr: Auto-detected mode as ‘legacy’
nvidia-container-cli: initialization error: load library failed: libnvidia-ml.so.1: cannot open shared object file: no such file or directory: unknown.

Morganh · September 13, 2023, 8:26am

Can you share /etc/nvidia-container-runtime/config.toml ?

Wenzy · September 13, 2023, 9:26am

Morganh · September 13, 2023, 10:03am

Please try to reinstall nvidia-driver.

Uninstall:
sudo apt purge nvidia-driver-525
sudo apt autoremove
sudo apt autoclean

Install: sudo apt install nvidia-driver-525

Wenzy · September 13, 2023, 10:26am

Thank you for the answers, but it doesn’t seem to change anything after reinstall.

Morganh · September 18, 2023, 3:16am

There is no update from you for a period, assuming this is not an issue anymore. Hence we are closing this topic. If need further support, please open a new one. Thanks

Please try with New computer install GPU Docker error - #6 by david9xqqb, especially, sudo systemctl restart docker.service.

Topic		Replies	Views
Auto-detected mode as 'legacy'. load library failed: libnvidia-ml.so.1 CUDA Setup and Installation	1	864	November 27, 2024
Nvidia-container-cli: initialization error: load library failed: libnvidia-ml.so.1: cannot open shared object file: no such file or directory Amazon Web Services (AWS) isaacsim	4	15061	April 18, 2024
"docker: Error response from daemon: exec: "nvidia-container-runtime-hook": executable file not found in $PATH"? CUDA Setup and Installation	0	4217	January 16, 2024
Jetson TX2 Unable to access or use gpu from docker Jetson TX2 docker , containers	3	1563	October 18, 2021
Nvidia-container-cli: initialization error: load library failed: libnvidia-ml.so.1 Virtualization For Infiniband And Ethernet	2	11525	December 9, 2023
Unable to run nvidia docker Jetson Xavier NX docker	4	3602	December 8, 2021
Docker run deepstream error:OCI runtime create failed: container_linux.go:345 in Jetson NX DeepStream SDK	6	4564	October 12, 2021
Failed to create symlink: failed to remove existing ...glvnd/egl_vendor.d/10_nvidia.json: device or resource busy: unknown Jetson Xavier NX docker	2	123	December 19, 2024
Rootless Docker; ERROR: No supported GPU(s) detected to run this container Docker and NVIDIA Docker docker	2	7667	April 8, 2022
Docker - No such container TAO Toolkit	5	46	February 3, 2025

Triton Server can't run with GPU

Related topics