NCCL Inspector로 AI 워크로드의 통신 성능 가시성 향상하기

Originally published at: NCCL Inspector로 AI 워크로드의 통신 성능 가시성 향상하기 - NVIDIA Technical Blog

딥러닝 훈련이나 추론 워크로드에서 AllReduce, AllGather, ReduceScatter 같은 집합 연산(collective operation)을 사용할 때 NVIDIA Collective Communication Library(NCCL)을 많이 사용합니다. 하지만 실제 워크로드가 실행되는 동안 NCCL이 어떤 성능을 내고 있는지를 파악하기는 어렵습니다. 이번 글에서는 이 문제를 해결하기 위해 개발된 NCCL Inspector Profiler Plugin을 소개합니다. 이 도구는 분산 딥러닝 훈련 및 추론 워크로드에서 항상 활성화된 상태로 작동하면서도,…