NVIDIA H200에서 거대 언어 모델 속도 향상을 제공하는 NVIDIA TensorRT-LLM

Originally published at: NVIDIA H200에서 거대 언어 모델 속도 향상을 제공하는 NVIDIA TensorRT-LLM - NVIDIA Technical Blog

거대 언어 모델(LLM)은 지난 한 해 동안 급격한 성장을 거듭했습니다. 뛰어난 사용자 경험을 제공하기 위해서는 높은 컴퓨팅 처리량과 대량의 고대역폭 메모리가 모두 필요한데요. NVIDIA TensorRT-LLM은 최대 처리량과 메모리 최적화 모두를 위한 최적화를 제공하여 LLM 추론 성능을 크게 향상시킵니다. NVIDIA H200 GPU의 최신 TensorRT-LLM 개선 사항은 Llama 2 70B LLM에서 6.7배의 속도 향상을 제공하며, Falcon-180B와 같은…