Originally published at: Blackwell, Meta의 Llama 4 Maverick을 활용해 사용자당 1,000 TPS 장벽 돌파 - NVIDIA Technical Blog
NVIDIA가 세계 최고 속도의 거대 언어 모델(LLM) 추론 성능을 달성했습니다. NVIDIA Blackwell GPU 8개를 탑재한 단일 NVIDIA DGX B200 노드는 Llama 4 컬렉션 중 가장 크고 강력한 모델인 4천억 매개변수 규모의 Llama 4 Maverick 모델에서 사용자당 초당 1,000토큰(TPS)을 넘는 성능을 구현할 수 있습니다. 이 속도는 AI 벤치마크 서비스인 Artificial Analysis에 의해 독립적으로 측정되었습니다. 이번 기록으로,…