NVLink Switch가 탑재된 NVIDIA HGX H200의 Medusa로 최대 1.9배 향상된 Llama 3.1 성능

Originally published at: https://developer.nvidia.com/ko-kr/blog/low-latency-inference-chapter-1-up-to-1-9x-higher-llama-3-1-performance-with-medusa-on-nvidia-hgx-h200-with-nvlink-switch/

거대 언어 모델(LLM)의 크기와 복잡성이 계속 증가함에 따라, 실시간 생성형 AI 애플리케이션이 요구하는 짧은 지연 시간과 높은 처리량을 제공하기 위해서는 멀티 GPU 컴퓨팅이 필수입니다. 성능은 초고속 GPU 간 통신을 통해 결합된 GPU가 ‘하나의 강력한 GPU’로서 요청을 처리하는 능력과 여러 GPU를 최대한 활용할 수 있는 고급 소프트웨어에 따라 달라집니다. 추측 디코딩과 같은 고급 알고리즘과 함께 텐서…