Originally published at: LLM 기술 마스터하기: 인퍼런스 최적화 - NVIDIA Technical Blog
트랜스포머 레이어를 쌓아 대규모 모델을 만들면 다양한 언어 작업에서 정확도가 향상되고, 퓨샷 러닝이 가능하며, 심지어 인간에 가까운 능력을 발휘할 수 있습니다. 이러한 파운데이션 모델은 트레이닝 비용이 많이 들며 추론 과정에서 메모리와 컴퓨팅 집약적일 수 있습니다 (주로 반복되는 비용임). 오늘날 가장 널리 사용되는 거대 언어 모델(LLM)은 그 크기가 수백억에서 수천억 개의 매개변수에 달할 수 있으며, 사용…