NVIDIA H100 Tensor 코어 GPU 및 NVIDIA TensorRT-LLM으로 최고의 추론 성능 달성하기

Originally published at: NVIDIA H100 Tensor 코어 GPU 및 NVIDIA TensorRT-LLM으로 최고의 추론 성능 달성하기 - NVIDIA Technical Blog

동급 최고의 AI 성능을 위해서는 효율적인 병렬 컴퓨팅 아키텍처, 생산적인 툴 스택, 고도로 최적화된 알고리즘이 필요합니다. NVIDIA는 NVIDIA H100 Tensor 코어 GPU의 핵심인 NVIDIA Hopper 아키텍처를 위한 최신 커널 최적화가 포함된 오픈 소스 NVIDIA TensorRT-LLM을 출시했습니다. 이러한 최적화를 통해 Llama 2 70B와 같은 모델은 추론 정확도를 유지하면서 H100 GPU에서 가속화된 FP8 연산을 사용하여 실행할 수…