https://arxiv.org/pdf/2407.01449ColPali: EFFICIENT DOCUMENT RETRIEVAL WITH VISION LANGUAGE MODELS에 대해 정리해 보겠습니다 ColPali의 기본 구조는 아래 그림과 같습니다 먼저 기존 방법들의 대표적인 구조입니다 그림으로 먼저 모델의 아키텍쳐를 분석해 보면 OCR, Layout Detection, captioning, chunking 등이 없어지고 Vision LLM이 삽입된 것을 볼 수 있습니다. 또한 시간도 엄청 단축되었고, query가 LLM을 거쳐서 나오는 것도 다른 것 같습니다 이제 이 배경을 가지고 어떤 장점이 있고, 어떻게 적용되었는지를 보겠습니다 ABSTRACT시각적 자료를 처리하는데, 기존 RAG기법이 어려움을..