JetPack 6.3 containerd and kubernetes

daniel.nilsson.9 · June 14, 2024, 12:32pm

Hi

I’m trying to join our Jetson Orin ARX to our Kubernetes cluster but I am unable to get gpu support in containers running with containerd.

I basically get the same error as in this thread: Nvidia-container runtime with containerd error on Jetpack 6

But the conclusion in that thread is that this error was solved in JetPack 6 but I don’t see how that is the case. The issue is not vlanx as in the thread linked in that thread, pod network works correctly with flannel.

Running containers with gpu support in docker works as expected but not with containerd/runc.

Setup:

sudo apt install containerd nvidia-container-toolkit
sudo mkdir /etc/containerd
sudo containerd config default > /etc/containerd/config.toml
sudo nvidia-ctk runtime configure --runtime=containerd --nvidia-set-as-default

/etc/containerd/config.toml:

disabled_plugins = []
imports = []
oom_score = 0
plugin_dir = ""
required_plugins = []
root = "/var/lib/containerd"
state = "/run/containerd"
temp = ""
version = 2

[cgroup]
  path = ""

[debug]
  address = ""
  format = ""
  gid = 0
  level = ""
  uid = 0

[grpc]
  address = "/run/containerd/containerd.sock"
  gid = 0
  max_recv_message_size = 16777216
  max_send_message_size = 16777216
  tcp_address = ""
  tcp_tls_ca = ""
  tcp_tls_cert = ""
  tcp_tls_key = ""
  uid = 0

[metrics]
  address = ""
  grpc_histogram = false

[plugins]

  [plugins."io.containerd.gc.v1.scheduler"]
    deletion_threshold = 0
    mutation_threshold = 100
    pause_threshold = 0.02
    schedule_delay = "0s"
    startup_delay = "100ms"

  [plugins."io.containerd.grpc.v1.cri"]
    device_ownership_from_security_context = false
    disable_apparmor = false
    disable_cgroup = false
    disable_hugetlb_controller = true
    disable_proc_mount = false
    disable_tcp_service = true
    drain_exec_sync_io_timeout = "0s"
    enable_selinux = false
    enable_tls_streaming = false
    enable_unprivileged_icmp = false
    enable_unprivileged_ports = false
    ignore_deprecation_warnings = []
    ignore_image_defined_volumes = false
    max_concurrent_downloads = 3
    max_container_log_line_size = 16384
    netns_mounts_under_state_dir = false
    restrict_oom_score_adj = false
    sandbox_image = "registry.k8s.io/pause:3.6"
    selinux_category_range = 1024
    stats_collect_period = 10
    stream_idle_timeout = "4h0m0s"
    stream_server_address = "127.0.0.1"
    stream_server_port = "0"
    systemd_cgroup = false
    tolerate_missing_hugetlb_controller = true
    unset_seccomp_profile = ""

    [plugins."io.containerd.grpc.v1.cri".cni]
      bin_dir = "/opt/cni/bin"
      conf_dir = "/etc/cni/net.d"
      conf_template = ""
      ip_pref = ""
      max_conf_num = 1

    [plugins."io.containerd.grpc.v1.cri".containerd]
      default_runtime_name = "nvidia"
      disable_snapshot_annotations = true
      discard_unpacked_layers = false
      ignore_rdt_not_enabled_errors = false
      no_pivot = false
      snapshotter = "overlayfs"

      [plugins."io.containerd.grpc.v1.cri".containerd.default_runtime]
        base_runtime_spec = ""
        cni_conf_dir = ""
        cni_max_conf_num = 0
        container_annotations = []
        pod_annotations = []
        privileged_without_host_devices = false
        runtime_engine = ""
        runtime_path = ""
        runtime_root = ""
        runtime_type = ""

        [plugins."io.containerd.grpc.v1.cri".containerd.default_runtime.options]

      [plugins."io.containerd.grpc.v1.cri".containerd.runtimes]

        [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia]
          base_runtime_spec = ""
          cni_conf_dir = ""
          cni_max_conf_num = 0
          container_annotations = []
          pod_annotations = []
          privileged_without_host_devices = false
          runtime_engine = ""
          runtime_path = ""
          runtime_root = ""
          runtime_type = "io.containerd.runc.v2"

          [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.nvidia.options]
            BinaryName = "/usr/bin/nvidia-container-runtime"
            CriuImagePath = ""
            CriuPath = ""
            CriuWorkPath = ""
            IoGid = 0
            IoUid = 0
            NoNewKeyring = false
            NoPivotRoot = false
            Root = ""
            ShimCgroup = ""
            SystemdCgroup = true

        [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc]
          base_runtime_spec = ""
          cni_conf_dir = ""
          cni_max_conf_num = 0
          container_annotations = []
          pod_annotations = []
          privileged_without_host_devices = false
          runtime_engine = ""
          runtime_path = ""
          runtime_root = ""
          runtime_type = "io.containerd.runc.v2"

          [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options]
            BinaryName = ""
            CriuImagePath = ""
            CriuPath = ""
            CriuWorkPath = ""
            IoGid = 0
            IoUid = 0
            NoNewKeyring = false
            NoPivotRoot = false
            Root = ""
            ShimCgroup = ""
            SystemdCgroup = true

      [plugins."io.containerd.grpc.v1.cri".containerd.untrusted_workload_runtime]
        base_runtime_spec = ""
        cni_conf_dir = ""
        cni_max_conf_num = 0
        container_annotations = []
        pod_annotations = []
        privileged_without_host_devices = false
        runtime_engine = ""
        runtime_path = ""
        runtime_root = ""
        runtime_type = ""

        [plugins."io.containerd.grpc.v1.cri".containerd.untrusted_workload_runtime.options]

    [plugins."io.containerd.grpc.v1.cri".image_decryption]
      key_model = "node"

    [plugins."io.containerd.grpc.v1.cri".registry]
      config_path = ""

      [plugins."io.containerd.grpc.v1.cri".registry.auths]

      [plugins."io.containerd.grpc.v1.cri".registry.configs]

      [plugins."io.containerd.grpc.v1.cri".registry.headers]

      [plugins."io.containerd.grpc.v1.cri".registry.mirrors]

    [plugins."io.containerd.grpc.v1.cri".x509_key_pair_streaming]
      tls_cert_file = ""
      tls_key_file = ""

  [plugins."io.containerd.internal.v1.opt"]
    path = "/opt/containerd"

  [plugins."io.containerd.internal.v1.restart"]
    interval = "10s"

  [plugins."io.containerd.internal.v1.tracing"]

  [plugins."io.containerd.metadata.v1.bolt"]
    content_sharing_policy = "shared"

  [plugins."io.containerd.monitor.v1.cgroups"]
    no_prometheus = false

  [plugins."io.containerd.runtime.v1.linux"]
    no_shim = false
    runtime = "runc"
    runtime_root = ""
    shim = "containerd-shim"
    shim_debug = false

  [plugins."io.containerd.runtime.v2.task"]
    platforms = ["linux/arm64/v8"]
    sched_core = false

  [plugins."io.containerd.service.v1.diff-service"]
    default = ["walking"]

  [plugins."io.containerd.service.v1.tasks-service"]
    rdt_config_file = ""

  [plugins."io.containerd.snapshotter.v1.aufs"]
    root_path = ""

  [plugins."io.containerd.snapshotter.v1.btrfs"]
    root_path = ""

  [plugins."io.containerd.snapshotter.v1.devmapper"]
    async_remove = false
    base_image_size = ""
    discard_blocks = false
    fs_options = ""
    fs_type = ""
    pool_name = ""
    root_path = ""

  [plugins."io.containerd.snapshotter.v1.native"]
    root_path = ""

  [plugins."io.containerd.snapshotter.v1.overlayfs"]
    mount_options = []
    root_path = ""
    sync_remove = false
    upperdir_label = false

  [plugins."io.containerd.snapshotter.v1.zfs"]
    root_path = ""

  [plugins."io.containerd.tracing.processor.v1.otlp"]

[proxy_plugins]

[stream_processors]

  [stream_processors."io.containerd.ocicrypt.decoder.v1.tar"]
    accepts = ["application/vnd.oci.image.layer.v1.tar+encrypted"]
    args = ["--decryption-keys-path", "/etc/containerd/ocicrypt/keys"]
    env = ["OCICRYPT_KEYPROVIDER_CONFIG=/etc/containerd/ocicrypt/ocicrypt_keyprovider.conf"]
    path = "ctd-decoder"
    returns = "application/vnd.oci.image.layer.v1.tar"

  [stream_processors."io.containerd.ocicrypt.decoder.v1.tar.gzip"]
    accepts = ["application/vnd.oci.image.layer.v1.tar+gzip+encrypted"]
    args = ["--decryption-keys-path", "/etc/containerd/ocicrypt/keys"]
    env = ["OCICRYPT_KEYPROVIDER_CONFIG=/etc/containerd/ocicrypt/ocicrypt_keyprovider.conf"]
    path = "ctd-decoder"
    returns = "application/vnd.oci.image.layer.v1.tar+gzip"

[timeouts]
  "io.containerd.timeout.bolt.open" = "0s"
  "io.containerd.timeout.shim.cleanup" = "5s"
  "io.containerd.timeout.shim.load" = "5s"
  "io.containerd.timeout.shim.shutdown" = "3s"
  "io.containerd.timeout.task.state" = "2s"

[ttrpc]
  address = ""
  gid = 0
  uid = 0

If I try to launch a gpu enabled container with:

sudo ctr run --rm --gpus 0 --tty nvcr.io/nvidia/l4t-cuda:12.2.12-runtime cuda-test

I get this error:

ctr: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 1, stdout: , stderr: NvRmMemInitNvmap failed with Permission denied
356: Memory Manager Not supported



****NvRmMemMgrInit failed**** error type: 196626


libnvrm_gpu.so: NvRmGpuLibOpen failed, error=196626
NvRmMemInitNvmap failed with Permission denied
356: Memory Manager Not supported



****NvRmMemMgrInit failed**** error type: 196626


libnvrm_gpu.so: NvRmGpuLibOpen failed, error=196626
NvRmMemInitNvmap failed with Permission denied
356: Memory Manager Not supported



****NvRmMemMgrInit failed**** error type: 196626


libnvrm_gpu.so: NvRmGpuLibOpen failed, error=196626
nvidia-container-cli: detection error: nvml error: unknown error: unknown

If I install docker instead and launch the container with:

sudo docker run -it --rm nvcr.io/nvidia/l4t-cuda:12.2.12-runtime

When using docker it works as expected and the GPU is accessible inside the container.

Am I doing something wrong? The same setup works on x86 machines with discrete Nvidia GPU:s.

AastaLLL · June 17, 2024, 5:47am

Hi,

You will need to add the account to video group to enable access.
Could you give it a try:

Ex.

$ sudo usermod -a -G video [name]

Thanks.

daniel.nilsson.9 · June 17, 2024, 7:03am

Does not seem to make any difference, I get the same error. I was already running as root so should not be needed I think.

But I did:

sudo usermod -a -G video root
sudo usermod -a -G video sysadm

sudo systemctl restart containerd

sudo ctr run --rm --gpus 0 --tty nvcr.io/nvidia/l4t-cuda:12.2.12-runtime cuda-test

...

ctr: failed to create shim task: OCI runtime create failed: runc create failed: unable to start container process: error during container init: error running hook #0: error running hook: exit status 1, stdout: , stderr: NvRmMemInitNvmap failed with Permission denied
356: Memory Manager Not supported



****NvRmMemMgrInit failed**** error type: 196626


libnvrm_gpu.so: NvRmGpuLibOpen failed, error=196626
NvRmMemInitNvmap failed with Permission denied
356: Memory Manager Not supported



****NvRmMemMgrInit failed**** error type: 196626


libnvrm_gpu.so: NvRmGpuLibOpen failed, error=196626
NvRmMemInitNvmap failed with Permission denied
356: Memory Manager Not supported



****NvRmMemMgrInit failed**** error type: 196626


libnvrm_gpu.so: NvRmGpuLibOpen failed, error=196626
nvidia-container-cli: detection error: nvml error: unknown error: unknown

If I run the same command without “–gpu” the container starts but then the driver is not available in the container:

==========
== CUDA ==
==========

CUDA Version 12.2.12

Container image Copyright (c) 2016-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.

This container image and its contents are governed by the NVIDIA Deep Learning Container License.
By pulling and using the container, you accept the terms and conditions of this license:
https://developer.nvidia.com/ngc/nvidia-deep-learning-container-license

A copy of this license is made available in this container at /NGC-DL-CONTAINER-LICENSE for your convenience.

WARNING: The NVIDIA Driver was not detected.  GPU functionality will not be available.
   Use the NVIDIA Container Toolkit to start this container with GPU support; see
   https://docs.nvidia.com/datacenter/cloud-native/ .

daniel.nilsson.9 · June 17, 2024, 8:37am

Does the nvidia-container-cli support tegra based products?

The error seems to be coming from nvidia-container-cli.

If i run:

sudo nvidia-container-cli info

I get this error:

NvRmMemInitNvmap failed with Permission denied
356: Memory Manager Not supported



****NvRmMemMgrInit failed**** error type: 196626


libnvrm_gpu.so: NvRmGpuLibOpen failed, error=196626
NvRmMemInitNvmap failed with Permission denied
356: Memory Manager Not supported



****NvRmMemMgrInit failed**** error type: 196626


libnvrm_gpu.so: NvRmGpuLibOpen failed, error=196626
NvRmMemInitNvmap failed with Permission denied
356: Memory Manager Not supported



****NvRmMemMgrInit failed**** error type: 196626


libnvrm_gpu.so: NvRmGpuLibOpen failed, error=196626
nvidia-container-cli: detection error: nvml error: unknown error

I have tried setting up GPU device injection using CDI according to:
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/cdi-support.html

But I have been unsuccessful in getting that to work too… Any clarification on what must be done would be much appreciated since I’m out of ideas.

Thanks

AastaLLL · June 19, 2024, 5:08am

Hi,

Confirmed that we can reproduce the same error with nvidia-container-cli.
We need to check with our internal team for more info and update.

Thanks.

AastaLLL · June 27, 2024, 2:53am

Hi,

Our internal team has confirmed that nivida-container-cli is no longer supported on Jetson that uses iGPUs.

Thanks.

kent.howard · June 27, 2024, 3:22am

Are there any equivalent replacement to allow gpu container runtime for Jetson?

Thanks

daniel.nilsson.9 · June 28, 2024, 10:58am

Ok, I don’t really understand, how do I make it work? According to Supported Platforms — NVIDIA Container Toolkit 1.15.0 documentation nvidia-container-toolkit should support tegra based systems, how do I make it work with a container runtime such as containerd?

AastaLLL · July 1, 2024, 7:31am

Hi,

Thanks for your feedback.
We need to confirm this with our internal team and provide more info to you later.

Thanks.

AastaLLL · July 2, 2024, 3:33am

Hi,

There is a known issue with the Orin-based systems.
Our internal is now checking if the fix is included in the most recent release.

Thanks.

AastaLLL · July 18, 2024, 7:01am

Hi,

nvidia-container-cli won’t work on Jetson.
But the device plugin should have had a fix merged, please give it a try.

Please find more info in the below comment:

Thanks.

daniel.nilsson.9 · August 8, 2024, 5:53am

Thank you, I was able to get it to work in Kubernetes with device plugin version 16.1.

The documentation is lacking a bit but given your response above I suppose CDI is the only way to inject the driver into containers on Jetson platform.

I guess nvidia container runtime hook is not really required anymore but if you continue to use it the nvidia CDI device can be injected transparently like this.

# Generate cdi spec (--mode=csv workaround for jetson systems)
nvidia-ctk cdi generate --output=/etc/cdi/nvidia.yaml --mode=csv

# Force nvidia container runtime to use cdi
nvidia-ctk config --in-place --set nvidia-container-runtime.mode=cdi

# Configure containerd to use nvidia container toolkit runtime
nvidia-ctk runtime configure --runtime=containerd --nvidia-set-as-default

Then I deployed nvidia-device-plugin 16.1 in kubernetes cluster:

helm repo add nvdp https://nvidia.github.io/k8s-device-plugin
helm repo update

helm upgrade -i nvdp nvdp/nvidia-device-plugin \
    --version=0.16.1 \
    --namespace nvidia-device-plugin \
    --create-namespace \
    --set gfd.enabled=true

The deployed node future discovery worker will not detect GPU on Jetson device so GPU device plugin and gpu feature discovery will not automatically be scheduled on Jetson nodes.

Therefore node must manually be labeled with “nvidia.com/gpu.present=true”

kubectl label nodes jetson-orin-agx-node nvidia.com/gpu.present=true

system · August 22, 2024, 5:53am

This topic was automatically closed 14 days after the last reply. New replies are no longer allowed.

Topic		Replies	Views
Unable to access containers after upgrading to Jetpack 5.1.2 on Orin AGX Jetson AGX Orin containers	8	1268	October 5, 2023
Jetson Orin Nano Dev Board Pods Stuck in ContainersCreating State Jetson Orin Nano docker , kubernetes	7	192	July 30, 2024
Podman + GPU on Jetson AGX Orin Jetson AGX Orin pytorch , containers	9	387	July 30, 2024
Announcing containerd Support for the NVIDIA GPU Operator Technical Blog	14	1891	January 21, 2022
Jetson Orin NX nvidia-container-runtime Jetson Orin NX containers , kubernetes	8	1650	September 11, 2023
JetPack 5.1.1 is now live Jetson AGX Orin	8	3176	August 3, 2023
Orin Nano Dev-Kit with JetPack 6.0 PR Not Detecting CSI Camera Jetson Orin Nano camera	25	190	October 22, 2024
Orin Nano Won’t Install Drivers Jetpack 5.1.2 SdkManager Jetson Orin Nano sdkm	29	967	April 10, 2024
Jetpack 6.1 - docker cuda version mismatch Jetson Orin Nano docker	12	78	November 21, 2024
Nvidia runtime fails on Jetpack 6 GA Jetson Orin NX cuda , docker	5	444	July 2, 2024

JetPack 6.3 containerd and kubernetes

Related topics