Originally published at: NVIDIA H100 GPU에서 대규모 언어 모델 추론을 강화하는 NVIDIA TensorRT-LLM - NVIDIA Technical Blog
대규모 언어 모델은 놀랍도록 새로운 기능을 제공하여 AI로 할 수 있는 일의 지평을 넓혀줍니다. 그러나 큰 크기와 고유한 실행 특성으로 인해 비용 효율적인 방식으로 사용하기 어려울 수 있습니다. NVIDIA는 LLM 추론을 가속화하고 최적화하기 위해 메타(Meta), 애니스케일(Anyscale), 코히어(Cohere), 데시(Deci), 그래머리(Grammarly), 미스트랄(Mistral) AI, 모자이크ML(현재 데이터브릭스의 일부), OctoML, 탭나인(Tabnine), Together AI 등 주요 기업들과 긴밀히 협력해 왔습니다. 이러한…