QUICK REVIEW

[논문 리뷰] Retrieval-Augmented Multimodal Language Modeling

Michihiro Yasunaga, Armen Aghajanyan|arXiv (Cornell University)|2022. 11. 22.

Multimodal Machine Learning Applications인용 수 29

한 줄 요약

RA-CM3은 외부 메모리에서 관련 텍스트/이미지를 검색하여 생성을 조건화하는 검색-증강 다중모달 모델로, 이미지 및 텍스트 생성을 더 높은 충실도와 새로운 맥락 내 학습 능력으로 가능하게 하며, 이전 모델들에 비해 학습 컴퓨트를 더 적게 사용합니다.

ABSTRACT

Recent multimodal models such as DALL-E and CM3 have achieved remarkable progress in text-to-image and image-to-text generation. However, these models store all learned knowledge (e.g., the appearance of the Eiffel Tower) in the model parameters, requiring increasingly larger models and training data to capture more knowledge. To integrate knowledge in a more scalable and modular way, we propose a retrieval-augmented multimodal model, which enables a base multimodal model (generator) to refer to relevant text and images fetched by a retriever from external memory (e.g., documents on the web). Specifically, for the retriever, we use a pretrained CLIP, and for the generator, we train a CM3 Transformer on the LAION dataset. Our resulting model, named Retrieval-Augmented CM3 (RA-CM3), is the first multimodal model that can retrieve and generate both text and images. We show that RA-CM3 significantly outperforms baseline multimodal models such as DALL-E and CM3 on both image and caption generation tasks (12 FID and 17 CIDEr improvements on MS-COCO), while requiring much less compute for training (<30% of DALL-E). Moreover, we show that RA-CM3 exhibits novel capabilities, such as faithful image generation and multimodal in-context learning (e.g., image generation from demonstrations).

연구 동기 및 목표

매개변수에 고정된 지식 대신 외부 메모리를 사용하여 다중모달 생성의 확장 가능한 지식 증강을 동기부여한다.
텍스트와 이미지가 혼합된 문서를 인코딩하고 검색할 수 있는 다중모달 검색기를 개발한다.
검색된 다중모달 문서를 생성에 활용할 수 있는 CM3 기반의 검색-증강 생성기를 구축한다.
검색 증강이 MS-COCO에서 이미지 및 캡션 생성을 모두 향상시킴을 입증하고, 다중모달 맥락 학습과 같은 새로운 기능을 보여준다.

제안 방법

CLIP를 확장한 혼합 모달 인코더를 가진 조밀한 다중모달 검색기를 사용하여 외부 메모리에서 관련 다중모달 문서를 검색한다.
쿼리와 메모리 항목을 공유 조밀 공간에서 E_Q와 E_M를 통해 표현하여 최대 내적 검색(MIPS)을 가능하게 한다.
검색된 다중모달 문서를 입력 시퀀스 앞에 추가하고 주 시퀀스와 검색된 문서를 모두 포함하는 공동 손실(L = L_main + α L_retr)로 CM3 기반 생성기를 학습한다.
LAION의 150M 텍스트-이미지 쌍을 HTML 유사 다중모달 문서로 형식화하여 이미지당 1024 개의 토큰으로 RA-CM3를 학습한다.
MS-COCO에서 캡션-투-이미지 생성(FID)과 이미지-투-캡션 생성(CIDEr) 모두를 평가하고 기준선과 비교하여 학습 컴퓨트 효율성을 측정한다.
검색 다양성, 중복 회피, 쿼리 드롭아웃의 영향력을 이해하기 위한 설계 선택 및 변인 분석을 설명한다.

실험 결과

연구 질문

RQ1검색 증강 다중모달 모델이 외부 다중모달 문서를 검색하고 활용하여 이미지와 텍스트 생성을 모두 향상시킬 수 있는가?
RQ2다중모달 검색기를 구축하고 검색된 콘텐츠를 다중모달 생성기에 통합하기 위한 모범 사례는 무엇인가?
RQ3검색 증강이 텍스트와 이미지 모달리티에 걸친 맥락 학습 및 지식 집약적 다중모달 생성을 가능하게 하는가?

주요 결과

RA-CM3는 MS-COCO에서 이미지 및 캡션 생성을 크게 향상시킨다(예: 기준선 대비 12 FID 및 17 CIDEr 개선).
RA-CM3는 비교 설정에서 DALL-E의 컴퓨트의 30% 미만으로 강한 성능을 달성한다.
RA-CM3는 텍스트와 이미지를 모두 검색하고 생성할 수 있는 최초의 모델이며, 새로운 다중모달 맥락 학습 기능을 보여준다.
모델은 지식 집중형 프롬프트에서 충실한 이미지 생성을 보이며 맥락 학습을 통한 few-shot 이미지 분류를 수행할 수 있다.
검색 증강은 파라미터에 모든 지식을 인코딩하는 대신 검색된 콘텐츠를 활용하는 데 집중하게 하여 학습 효율성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.