NVIDIA TensorRT-LLM, 인플라이트 배치로 인코더-디코더 모델 가속화

Originally published at: NVIDIA TensorRT-LLM, 인플라이트 배치로 인코더-디코더 모델 가속화 - NVIDIA Technical Blog

NVIDIA는 최근 NVIDIA TensorRT-LLM이 인코더-디코더 모델 아키텍처를 가속화한다고 발표했습니다. TensorRT-LLM은 다음과 같은 다양한 모델 아키텍처에 대한 추론을 최적화하는 오픈 소스 라이브러리입니다. Llama 3.1과 같은 디코더 전용 모델 Mixtral과 같은 혼합 전문가 모델(MoE) Mamba와 같은 선택적 상태 공간 모델(SSM) 시각-언어 및 영상-언어 응용 분야를 위한 다중 모드 모델 인코더-디코더 모델 지원의 추가는 TensorRT-LLM의 기능을 더욱 확장시켜,…