Originally published at: Hymba 하이브리드 헤드 아키텍처로 소규모 언어 모델 성능 향상 - NVIDIA Technical Blog
어텐션 기반 아키텍처를 갖춘 트랜스포머는 강력한 성능, 병렬 처리, 키-값(KV) 캐시를 활용한 장기 리콜 덕분에 언어 모델(LM)로서 가장 널리 사용되고 있습니다. 하지만 계산 비용이 이차적으로 증가하고 메모리 사용량이 많아 효율성이 떨어지는 문제가 있습니다. 반면, Mamba 및 Mamba-2와 같은 상태 공간 모델(SSM)은 연속적인 복잡성을 줄이고 하드웨어 최적화에 적합하지만, 메모리 리콜 작업에서 한계를 보이며 일반적인 벤치마크 성능에…