[논문 리뷰] Grounding Language Models to Images for Multimodal Inputs and Outputs
FROMAGe는 선형 매핑과 회수 토큰을 사용하여 고정된 텍스트 전용 LLM을 시각 도메인에 접지시키고, 강력한 제로샷 다중모달 역량으로 이미지-텍스트가 교차하는 입력과 출력을 가능하게 한다.
We propose an efficient method to ground pretrained text-only language models to the visual domain, enabling them to process arbitrarily interleaved image-and-text data, and generate text interleaved with retrieved images. Our method leverages the abilities of language models learnt from large scale text-only pretraining, such as in-context learning and free-form text generation. We keep the language model frozen, and finetune input and output linear layers to enable cross-modality interactions. This allows our model to process arbitrarily interleaved image-and-text inputs, and generate free-form text interleaved with retrieved images. We achieve strong zero-shot performance on grounded tasks such as contextual image retrieval and multimodal dialogue, and showcase compelling interactive abilities. Our approach works with any off-the-shelf language model and paves the way towards an effective, general solution for leveraging pretrained language models in visually grounded settings.
연구 동기 및 목표
- 전체 모델 미세 조정 없이 대규모 텍스트 전용 LLM을 활용하여 다중모달 이해를 달성합니다.
- 임의로 교차된 이미지와 텍스트 입력의 처리를 가능하게 합니다.
- 검색된 이미지와 교차하는 자유 형식의 텍스트 생성을 허용합니다.
- 그라운딩 작업 및 다중모달 대화에서 강한 제로샷 성능을 달성합니다.
- 향후 더 큰 LLM과 함께 확장 가능한 모델-독립적 접근법을 제공합니다.
제안 방법
- 훈련 중에는 언어 모델과 시각 인코더를 고정된 상태로 유지합니다.
- 이미지 및 텍스트 임베딩 공간 간의 매핑을 위한 경량 변환 계층을 학습합니다.
- [RET] 토큰을 도입하고 텍스트-이미지 검색을 지원하도록 임베딩을 학습합니다.
- 대조 학습을 이용한 이미지 캡션 생성 및 이미지-텍스트 검색의 다중 작업 목표로 학습합니다.
- 교차 모달 상호작용을 위해 시각 임베딩을 텍스트 공간으로 투사하고(또는 그 반대로) 선형 매핑을 사용합니다.
- 단일 6.7B OPT 백본과 CLIP 기반 시각 백본으로 Conceptual Captions (CC3M)에서 학습합니다.
실험 결과
연구 질문
- RQ1고정된 언어 모델이 시각에 효과적으로 접지되어 교차된 이미지-텍스트 데이터를 처리할 수 있을까?
- RQ2전용 [RET] 토큰을 추가하는 것이 자기회귀 LLM 내에서 텍스트-이미지 검색을 향상시키는가?
- RQ3다중모달 맥락(여러 캡션과 이미지)이 검색 및 생성 성능에 어떤 영향을 미치는가?
- RQ4경량화되고 모델-독립적인 접지 접근법이 멀티모달 출력을 가능하게 하면서 LLM의 컨텍스트 학습을 어느 정도 유지할 수 있는가?
주요 결과
- FROMAGe는 맥락적 이미지 검색과 다중모달 대화에서 강력한 제로샷 성능을 달성합니다.
- 모델은 약 1 GPU일의 훈련으로 효율적으로 학습되며, 매개변수의 97%가 고정되고 선형 매핑과 [RET] 토큰만 업데이트됩니다.
- [RET] 토큰의 추가는 검색 성능을 크게 향상시키며(특히 VIST의 R@1에서),
- 다중모달 맥락(캡션과 이미지)은 텍스트 전용 맥락에 비해 검색을 유의하게 개선하며, 교차된 입력에 대한 민감성을 보여준다.
- FROMAGe는 많은 다중모달 맥락 상황에서 CLIP를 능가하고, 일부 기존 모델에서 지원되지 않았던 교차된 이미지-텍스트 출력을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.