NVIDIA, Meta Llama 4 Scout 및 Maverick에서의 추론 가속화

Originally published at: NVIDIA, Meta Llama 4 Scout 및 Maverick에서의 추론 가속화 - NVIDIA Technical Blog

많은 관심을 받아온 Llama AI 모델의 최신 버전, Llama 4 Scout와 Llama 4 Maverick이 새롭게 공개됐습니다. NVIDIA의 오픈소스 소프트웨어로 가속되어 Blackwell B200 GPU에서는 초당 4만 토큰 이상을 처리할 수 있으며 현재 NVIDIA NIM 마이크로서비스에서 직접 사용하실 수 있습니다. Llama 4 모델은 이제 기본적으로 멀티모달과 다국어 기능을 지원하며, 전문가 혼합(MoE) 구조를 사용합니다. 다양한 멀티모달 기능을 갖춘…