Nemotron-CC를 소개합니다: LLM 사전 학습을 위한 1조 토큰 규모의 영어 데이터 세트 발표

Originally published at: Nemotron-CC를 소개합니다: LLM 사전 학습을 위한 1조 토큰 규모의 영어 데이터 세트 발표 - NVIDIA Technical Blog

NVIDIA는 1조 9천억 개의 합성 생성 데이터를 포함하여 매우 정확한 거대 언어 모델(LLM)의 사전 학습을 위한 6조 3천억 개의 토큰으로 구성된 영어 커먼 크롤(Common Crawl) 데이터 세트인 Nemotron-CC의 출시를 발표하게 되었습니다. 최첨단 LLM을 훈련하는 데 있어 핵심 중 하나는 고품질의 사전 훈련 데이터 세트이며, 최근 Meta Llama 시리즈와 같은 최고의 LLM은 15조 개의 토큰으로 구성된…