Error running HPL on mutiple nodes

gsmith3 · March 11, 2025, 3:43pm

Command line:
srun -N 2 --ntasks-per-node=8 --cpu-bind=none --mpi=pmix --container-image=“${CONT}” ./hpl.sh --dat /workspace/hpl-linux-x86_64/sample-dat/HPL-H200-16GPUs.dat

/dvs/p4/build/sw/rel/gpgpu/toolkit/r12.8/main_nvshmem/src/modules/transport/common/transport_ib_common.cpp:97: NULL value mem registration failed. Reason: Bad address

/dvs/p4/build/sw/rel/gpgpu/toolkit/r12.8/main_nvshmem/src/modules/transport/ibrc/ibrc.cpp:498: non-zero status: 2 Unable to register memory handle.
/dvs/p4/build/sw/rel/gpgpu/toolkit/r12.8/main_nvshmem/src/host/mem/mem_heap.cpp:931: non-zero status: 7 register_mem_handle failed for remote

/dvs/p4/build/sw/rel/gpgpu/toolkit/r12.8/main_nvshmem/src/host/mem/mem_heap.cpp:1099: non-zero status: 7 register heap memory failed

/dvs/p4/build/sw/rel/gpgpu/toolkit/r12.8/main_nvshmem/src/host/mem/mem_heap.cpp:1534: non-zero status: 7 register heap UC memory failed

/dvs/p4/build/sw/rel/gpgpu/toolkit/r12.8/main_nvshmem/src/host/mem/mem_heap.cpp:533: non-zero status: 1 cuMemAddressFree failed

/dvs/p4/build/sw/rel/gpgpu/toolkit/r12.8/main_nvshmem/src/host/mem/mem_heap.cpp:1591: non-zero status: 7 allocate_physical_memory_to_heap failed

/dvs/p4/build/sw/rel/gpgpu/toolkit/r12.8/main_nvshmem/src/host/proxy/proxy.cpp:130: NULL value failed allocating proxy_channel_g_buf
channel creation failed
srun: error: slurm-compute-node-1: task 11: Exited with exit code 255
slurmstepd: error: mpi/pmix_v5: _errhandler: slurm-compute-node-1 [1]: pmixp_client_v2.c:211: Error handler invoked: status = -61, source = [slurm.pmix.128.0:11]
srun: Job step aborted: Waiting up to 32 seconds for job step to finish.

malmasri · March 13, 2025, 5:33pm

Hi @gsmith3,
It seems an NVSHMEM problem. Please make sure your system/configs are aligned with NVSHMEM hardware and software requirements (link). You can also run HPL without NVSHEMEM (export HPL_USE_NVSHMEM=0).

For further questions or to provide feedback, please contact HPCBenchmarks@nvidia.com.

Thanks

Topic		Replies	Views
Error while running NVIDIA HPL benchmark for H100 GPU-Accelerated Libraries	1	1430	April 2, 2024
How to run HPL script over Ethernet nvc, nvc++ and nvfortran hpc	5	848	June 25, 2024
Nvshmem error in docker HPL benchmark Container: HPC docker , hpc	1	361	December 25, 2024
Run HPL benckmark 23.3 on A800(80GB) GPU-Accelerated Libraries cuda	0	1249	April 20, 2023
NVSHMEM runtime error GPU-Accelerated Libraries nvshmem	11	2052	August 16, 2022
Unable to run NVSHMEM example with slurm GPU-Accelerated Libraries nvshmem	4	594	March 31, 2024
Nvidia docker nvcr.io/nvidia/hpc-benchmarks:23.10 HPL running error at HPC ARM Developer-kit Container: HPC cuda	2	1497	February 22, 2024
Error when running NVSHMEM perftest GPU-Accelerated Libraries nvshmem	3	467	January 16, 2025
NVSHMEM on multi-node GPUs GPU-Accelerated Libraries cuda , nvshmem	8	3000	January 18, 2024
Non-zero status: 22 ibv_modify_qp failed When running nvshmem example on more than one GPU GPU-Accelerated Libraries nvshmem	2	124	August 8, 2025

Error running HPL on mutiple nodes

Related topics