업계 최고 수준의 멀티모달 RAG: Llama 3.2 NeMo Retriever 임베딩 모델이 파이프라인 정확도를 높이는 방법

Originally published at: 업계 최고 수준의 멀티모달 RAG: Llama 3.2 NeMo Retriever 임베딩 모델이 파이프라인 정확도를 높이는 방법 - NVIDIA Technical Blog

데이터는 단순한 텍스트를 넘어서 이미지, 동영상, 오디오 등 다양한 형태를 포함하는 멀티모달 특성을 지니고 있습니다. 이러한 데이터는 복잡하고 비정형적인 구조를 가지는 경우가 많아 효과적으로 처리하기 어렵습니다. 일반적으로 PDF, 스캔 이미지, 슬라이드 등 문서를 텍스트로 변환하는 방법이 사용되지만, 그림 1에서 보듯 모든 정보를 텍스트로 완벽히 담아내기는 어렵습니다. 텍스트 변환 과정에서 시각 정보가 손실되는 문제를 해결하기 위해…