[논문 리뷰] Language Models Can See: Plugging Visual Controls in Text Generation
MAGIC은 CLIP 기반 시각 제어로 GPT-2 텍스트 생성을 안정시키는 학습 없는 디코딩 스킴으로, 제로샷 이미지 자막 작성과 시각적으로 근거가 있는 이야기 생성을 가능하게 하며, 최첨단 성능과 약 27배 빠른 디코딩 속도를 달성합니다.
Generative language models (LMs) such as GPT-2/3 can be prompted to generate text with remarkable quality. While they are designed for text-prompted generation, it remains an open question how the generation process could be guided by modalities beyond text such as images. In this work, we propose a training-free framework, called MAGIC (iMAge-Guided text generatIon with CLIP), for plugging in visual controls in the generation process and enabling LMs to perform multimodal tasks (e.g., image captioning) in a zero-shot manner. MAGIC is a simple yet efficient plug-and-play framework, which directly combines an off-the-shelf LM (i.e., GPT-2) and an image-text matching model (i.e., CLIP) for image-grounded text generation. During decoding, MAGIC influences the generation of the LM by introducing a CLIP-induced score, called magic score, which regularizes the generated result to be semantically related to a given image while being coherent to the previously generated context. Notably, the proposed decoding scheme does not involve any gradient update operation, therefore being computationally efficient. On the challenging task of zero-shot image captioning, MAGIC outperforms the state-of-the-art method by notable margins with a nearly 27 times decoding speedup. MAGIC is a flexible framework and is theoretically compatible with any text generation tasks that incorporate image grounding. In the experiments, we showcase that it is also capable of performing visually grounded story generation given both an image and a text prompt.
연구 동기 및 목표
- 이미지와 같은 비텍스트 형태를 이용해 언어 모델 생성 가이드를 제시하는 동기를 부여합니다.
- 텍스트 생성을 시각적 콘텐츠로 구체화하는 훈련 없는 디코딩 프레임워크(MAGIC)를 제안합니다.
- 이미지 자막 작성 및 시각적으로 근거 있는 스토리텔링에서 제로샷 성능을 입증합니다.
- MAGIC가 베이스라인보다 우수하며 그래디언트 기반 방법에 비해 디코딩 속도에서 상당한 향상을 제공한다는 점을 보여줍니다.
제안 방법
- CLIP-유도 매직 점수를 디코딩에 추가하여 토큰 선택을 가이드하는 MAGIC Search를 도입합니다.
- 매직 점수를 상위 k 후보 토큰에 대한 CLIP 기반 이미지-텍스트 유사도 분포로 정의합니다(식 5).
- 토큰 선택 목표에 매직 점수와 함께 모델 신뢰도 및 변성 감소 패널티를 포함합니다(식 4).
- 대표 텍스트 코퍼스에 대해 대조적 목표를 사용해 표현을 보정하는Task-specific GPT-2 파인튜닝(L_MLE + L_CL)을 수행합니다.
- 디코딩 중 그래디언트 업데이트가 필요하지 않아 제로샷 다중모달 생성을 효율적으로 가능하게 합니다.
- 시각적으로 근거를 둘 수 있는 모든 텍스트 생성 작업과의 호환성을 입증합니다.
실험 결과
연구 질문
- RQ1학습 없이도 시각적 근거를 사전 학습된 언어 모델에 효과적으로 주입할 수 있는 디코딩 전략이 가능한가요?
- RQ2CLIP-기반 디코딩이 그래디언트 기반 방법과 비교하여 제로샷 이미지 자막의 품질과 속도에 어떤 영향을 미치나요?
- RQ3MAGIC가 자막 작성뿐 아니라 시각적으로 근거 있는 스토리텔링과 같은 다른 멀티모달 생성 작업에 적용될 수 있나요?
주요 결과
| 모델 | MS-COCO B@1 | MS-COCO B@4 | MS-COCO M | MS-COCO R-L | MS-COCO CIDEr | MS-COCO SPICE | Flickr30k B@1 | Flickr30k B@4 | Flickr30k M | Flickr30k R-L | Flickr30k CIDEr | Flickr30k SPICE | 속도 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Supervised Approach | 77.2 | 36.2 | 27.0 | 56.4 | 113.5 | 20.3 | 27.3 | 21.7 | - | 56.6 | 16.0 | - | - | |
| GVD | - | - | - | - | - | - | 66.9 | 27.3 | 22.5 | - | 62.3 | 16.5 | - | - |
| UniVLP | - | 36.5 | 28.4 | - | 116.9 | 21.2 | - | 30.1 | 23.0 | - | 67.4 | 17.0 | - | - |
| ClipCap | - | 33.5 | 27.5 | - | 113.1 | 21.1 | - | - | - | - | - | - | - | - |
| Oscar | - | 36.5 | 30.3 | - | 123.7 | 23.1 | - | - | - | - | - | - | - | - |
| LEMON | - | 40.3 | 30.2 | - | 133.3 | 23.3 | - | - | - | - | - | - | - | - |
| Weakly Supervised Approach - UIC | 41.0 | 5.6 | 12.4 | 28.7 | 28.6 | 8.1 | - | - | - | - | - | - | - | - |
| IC-SME | - | 6.5 | 12.9 | 35.1 | 22.7 | - | - | 7.9 | 13.0 | 32.8 | 9.9 | - | - | - |
| S2S-SS | 49.5 | 6.3 | 14.0 | 34.5 | 31.9 | 8.6 | - | - | - | - | - | - | - | - |
| S2S-GCC | 50.4 | 7.6 | 13.5 | 37.3 | 31.8 | 8.4 | - | - | - | - | - | - | - | - |
| Unsupervised - Top-k | 33.6 | 2.4 | 8.3 | 25.6 | 3.8 | 1.7 | 34.0 | 2.9 | 9.0 | 24.4 | 3.3 | 2.7 | 69.9x | - |
| Unsupervised - Nucleus | 32.6 | 2.3 | 7.8 | 24.8 | 3.1 | 1.4 | 32.6 | 2.4 | 8.1 | 23.4 | 2.5 | 2.4 | 72.5x | - |
| Unsupervised - Contrastive | 39.5 | 3.0 | 10.8 | 30.8 | 7.7 | 2.9 | 37.6 | 4.3 | 9.8 | 25.7 | 8.9 | 4.6 | 1.0x | - |
| CLIPRe | 39.5 | 4.9 | 11.4 | 29.0 | 13.6 | 5.3 | 38.5 | 5.2 | 11.6 | 27.6 | 10.0 | 5.7 | - | - |
| ZeroCap | 49.8 | 7.0 | 15.4 | 31.8 | 34.5 | 9.2 | 44.7 | 5.4 | 11.8 | 27.3 | 16.8 | 6.2 | 1.0x | - |
| MAGIC | 56.8 | 12.9 | 17.4 | 39.9 | 49.3 | 11.3 | 44.5 | 6.4 | 13.1 | 31.6 | 20.4 | 7.1 | 26.6x | - |
- MAGIC은 MS-COCO 및 Flickr30k의 제로샷 이미지 자막 벤치마크에서 다양한 지표로 최첨단 성능을 달성합니다.
- MAGIC은 그래디언트 기반 ZeroCap 접근법보다 약 27배 빠른 디코딩 속도를 달성합니다.
- MAGIC은 교차 도메인 평가에서 베이스라인을 능가하는 강력한 도메인 간 강건성을 보여줍니다.
- MAGIC은 시각적으로 근거 있는 스토리 생성으로도 확장되어, 베이스라인보다 자동적 및 인간 평가에서 더 높은 품질을 제공합니다.
- 디코딩 중 학습 없이 작동하며, 짧고 미미한 과제 특이 파인 튜닝 단계만 필요합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.