Originally published at: 쿠버네티스에서 복잡한 AI 추론을 NVIDIA Grove로 간소화하기 - NVIDIA Technical Blog
최근 몇 년간 AI 추론은 단일 모델, 단일 파드 형태의 단순한 배포 방식에서 벗어나, 여러 구성 요소로 이뤄진 복잡한 시스템으로 진화하고 있습니다. 이제 하나의 모델을 배포할 때도 prefill, decode, vision encoder, key-value(KV) router 등 다양한 컴포넌트로 구성되는 경우가 많으며, 여기에 여러 모델 인스턴스가 협력해 추론, 검색, 멀티모달 작업을 수행하는 에이전트 파이프라인까지 등장하고 있습니다. 이처럼 시스템…