NVLink Switch가 탑재된 NVIDIA HGX H200의 Medusa로 최대 1.9배 향상된 Llama 3.1 성능

smoon · August 30, 2024, 2:57am

Originally published at: https://developer.nvidia.com/ko-kr/blog/low-latency-inference-chapter-1-up-to-1-9x-higher-llama-3-1-performance-with-medusa-on-nvidia-hgx-h200-with-nvlink-switch/

거대 언어 모델(LLM)의 크기와 복잡성이 계속 증가함에 따라, 실시간 생성형 AI 애플리케이션이 요구하는 짧은 지연 시간과 높은 처리량을 제공하기 위해서는 멀티 GPU 컴퓨팅이 필수입니다. 성능은 초고속 GPU 간 통신을 통해 결합된 GPU가 ‘하나의 강력한 GPU’로서 요청을 처리하는 능력과 여러 GPU를 최대한 활용할 수 있는 고급 소프트웨어에 따라 달라집니다. 추측 디코딩과 같은 고급 알고리즘과 함께 텐서…

Topic		Replies	Views
Low Latency Inference Chapter 1: Up to 1.9X Higher Llama 3.1 Performance with Medusa on NVIDIA HGX H200 with NVLink Switch Technical Blog llama	1	86	August 28, 2024
NVIDIA 플랫폼 전반에서 Llama 3.1 강화하기 Technical Blog - South Korea llama	1	47	August 2, 2024
추론 속도를 2배 높인 NVIDIA GH200 슈퍼칩, Llama 모델과의 멀티턴 상호작용에서 추론 가속화 Technical Blog - South Korea llama	1	36	October 31, 2024
Boosting Llama 3.1 405B Throughput by Another 1.5x on NVIDIA H200 Tensor Core GPUs and NVLink Switch Technical Blog llama	2	86	October 20, 2024
How NVLink Will Enable Faster, Easier Multi-GPU Computing Technical Blog	10	867	June 15, 2016
NVIDIA H100 Tensor 코어 GPU 및 NVIDIA TensorRT-LLM으로 최고의 추론 성능 달성하기 Technical Blog - South Korea	0	511	December 15, 2023
LLM, 추천 시스템 및 GNN을 위한 하나의 거대한 슈퍼칩: NVIDIA GH200 NVL32 Technical Blog - South Korea	0	586	November 30, 2023
GTX 470 vs GTX 295 benchmark using sdk examples comparison between GTX 470 and GTX 295 in sdk 2.2 2. CUDA Programming and Performance	15	46712	May 6, 2010
NVIDIA H100 GPU에서 대규모 언어 모델 추론을 강화하는 NVIDIA TensorRT-LLM Technical Blog - South Korea korean	0	637	September 22, 2023
추론 성능 가속화하는 새로운 소프트웨어 TensorRT-LLM 출시 Technical Blog - South Korea korean	0	663	September 12, 2023

NVLink Switch가 탑재된 NVIDIA HGX H200의 Medusa로 최대 1.9배 향상된 Llama 3.1 성능

Related topics