추론 성능 가속화하는 새로운 소프트웨어 TensorRT-LLM 출시

Originally published at: 추론 성능 가속화하는 새로운 소프트웨어 TensorRT-LLM 출시 - NVIDIA Technical Blog

대규모 언어 모델(LLM)의 획기적인 새로운 기능은 AI의 영역을 넓히고 있습니다. 그러나 큰 크기와 특수한 실행 특성으로 비용 효율적인 방식으로 사용하기 어려울 수 있습니다. 따라서 NVIDIA는 대규모 언어 모델 추론을 가속화하고 최적화하기 위해 메타(Meta), 애니스케일(Anyscale), 코히어(Cohere), 데시(Deci), 그래머리(Grammarly), 미스트럴 AI(Mistral AI), 현재 데이터브릭스(Databricks)로 인수된 모자이크ML(MosaicML), 옥토ML(OctoML), 탭나인(Tabnine), 투게더 AI(Together AI), 우버(Uber) 등 주요 기업들과 긴밀히 협력합니다. 이러한 혁신은 몇 주 내로 출시 예정인 오픈 소스 소프트웨어인 NVIDIA TensorRT-LLM에 통합됐으며, 암페어(Ampere), 러브레이스(Lovelace)와 호퍼(Hopper) GPU에서 사용할 수 있습니다. TensorRT-LLM은 TensorRT 딥…