Blackwell, Meta의 Llama 4 Maverick을 활용해 사용자당 1,000 TPS 장벽 돌파

smoon · June 2, 2025, 4:43am

Originally published at: Blackwell, Meta의 Llama 4 Maverick을 활용해 사용자당 1,000 TPS 장벽 돌파 - NVIDIA Technical Blog

NVIDIA가 세계 최고 속도의 거대 언어 모델(LLM) 추론 성능을 달성했습니다. NVIDIA Blackwell GPU 8개를 탑재한 단일 NVIDIA DGX B200 노드는 Llama 4 컬렉션 중 가장 크고 강력한 모델인 4천억 매개변수 규모의 Llama 4 Maverick 모델에서 사용자당 초당 1,000토큰(TPS)을 넘는 성능을 구현할 수 있습니다. 이 속도는 AI 벤치마크 서비스인 Artificial Analysis에 의해 독립적으로 측정되었습니다. 이번 기록으로,…

Topic		Replies	Views
Blackwell Breaks the 1,000 TPS/User Barrier With Meta’s Llama 4 Maverick Technical Blog llama	2	220	September 10, 2025
NVIDIA, Meta Llama 4 Scout 및 Maverick에서의 추론 가속화 Technical Blog - South Korea nim , llama	0	95	April 18, 2025
MLPerf Training v4.1에서 LLM 트레이닝 성능을 두 배로 향상시킨 NVIDIA Blackwell Technical Blog - South Korea	0	87	November 22, 2024
NVIDIA Blackwell Platform Sets New LLM Inference Records in MLPerf Inference v4.1 Technical Blog	1	140	August 28, 2024
DFlash 추론 가속 디코딩으로 NVIDIA Blackwell에서 최대 15배 추론 성능 향상하기 Technical Blog - South Korea	0	23	June 30, 2026
NVLink Switch가 탑재된 NVIDIA HGX H200의 Medusa로 최대 1.9배 향상된 Llama 3.1 성능 Technical Blog - South Korea llama	0	69	August 30, 2024
추론 속도를 2배 높인 NVIDIA GH200 슈퍼칩, Llama 모델과의 멀티턴 상호작용에서 추론 가속화 Technical Blog - South Korea llama	0	71	October 31, 2024
NVIDIA Blackwell 기반 MoE 추론 성능의 획기적 도약 Technical Blog - South Korea	0	46	January 20, 2026
NVIDIA Blackwell Delivers World-Record DeepSeek-R1 Inference Performance Technical Blog	2	263	July 17, 2025
NVIDIA Accelerates Inference on Meta Llama 4 Scout and Maverick Technical Blog nim , llama	1	344	April 12, 2025

Blackwell, Meta의 Llama 4 Maverick을 활용해 사용자당 1,000 TPS 장벽 돌파

Related topics