QUICK REVIEW

[논문 리뷰] VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and Linguistic Knowledge from Pretraining

Jun Chen, Han Guo|arXiv (Cornell University)|2021. 02. 20.

Multimodal Machine Learning Applications참고 문헌 21인용 수 11

한 줄 요약

VisualGPT는 사전 훈련된 언어 모델(LM)에서 확보한 언어 지식과 시각적 입력을 균형 있게 조합하는 데이터 효율적인 이미지 캡션 생성 모델을 제안한다. 자기 복원 주의 메커니즘과 희소 활성화 유닛을 도입함으로써, MSCOCO와 Conceptual Captions에서 훈련 데이터의 0.1%만을 사용하여 최신 기술 수준(SOTA) 성능을 달성하며, 기존 기준 모델 대비 최대 10.8% 높은 CIDEr 점수를 기록한다.

ABSTRACT

In this paper, we aim to improve the data efficiency of image captioning. We propose VisualGPT, a data-efficient image captioning model that leverages the linguistic knowledge from a large pretrained language model (LM). A crucial challenge is to balance between the use of visual information in the image and prior linguistic knowledge acquired from pretraining.We designed a novel self-resurrecting encoder-decoder attention mechanism to quickly adapt the pretrained LM as the language decoder on a small amount of in-domain training data. The pro-posed self-resurrecting activation unit produces sparse activations but is not susceptible to zero gradients. When trained on 0.1%, 0.5% and 1% of MSCOCO and Conceptual Captions, the proposed model, VisualGPT, surpasses strong image captioning baselines. VisualGPT outperforms the best baseline model by up to 10.8% CIDEr on MS COCO and up to 5.4% CIDEr on Conceptual Captions.We also perform a series of ablation studies to quantify the utility of each system component. To the best of our knowledge, this is the first work that improves data efficiency of image captioning by utilizing LM pretrained on unimodal data. Our code is available at: this https URL.

연구 동기 및 목표

소규모 도메인 내 훈련 데이터만 이용 가능한 상황에서 이미지 캡션 생성의 데이터 효율성을 향상시키기.
사전 훈련된 언어 모델에서의 사전 지식과 이미지에서 온 시각적 정보 간의 균형을 맞추는 도전 과제 해결.
최소한의 도메인 내 데이터로 대규모 언어 모델을 디코더로 효과적으로 피지테이닝할 수 있도록 하는 것.
희소 활성화와 역전파 중 기울기 문제 발생 시에도 모델 성능을 유지할 수 있는 메커니즘 설계.

제안 방법

도메인 내 데이터가 극히 적은 상황에서도 사전 훈련된 언어 모델을 디코더로 활용할 수 있도록 자기 복원 주의 인코더-디코더 주의 메커니즘 도입.
역전파 과정에서 영점 기울기 문제를 방지하면서도 희소 활성화를 생성하는 자기 복원 활성화 유닛 구현.
단일 모odal 텍스트 데이터로 사전 훈련된 언어 모델을 활용해 캡션 생성 시스템에 강력한 언어 지식 사전 지식을 통합.
디코딩 과정에서 비전 인코더의 시각적 특징과 언어 모델 내부 지식 간의 균형을 맞춰 일반화 능력을 향상.
MSCOCO와 Conceptual Captions와 같은 소규모 이미지-캡션 데이터셋에서 전체 모델을 엔드 투 엔드로 미세조정.
유연하게 주의 가중치를 조정하여 관련 있는 시각적 및 언어 신호에 우선순위를 두는 새로운 주의 메커니즘 사용.

실험 결과

연구 질문

RQ1소규모 도메인 내 훈련 데이터로만 사전 훈련된 언어 모델을 효과적으로 이미지 캡션 생성 디코더로 적응시킬 수 있는가?
RQ2이미지 캡션 생성 과정에서 시각적 지식과 언어 지식을 최적의 비율로 조합하면 데이터 효율성이 어떻게 향상되는가?
RQ3자기 복원 활성화 유닛이 낮은 데이터 환경에서의 훈련 안정성과 성능 향상에 기여하는가?
RQ4단일 모달로 사전 훈련된 언어 모델을 활용할 경우 소규모 데이터셋에서 캡션 생성 성능이 얼마나 향상되는가?

주요 결과

MSCOCO 데이터셋에서 VisualGPT는 훈련 데이터의 0.1%만으로도 기존 강력한 기준 모델 대비 최대 10.8% 높은 CIDEr 점수를 기록한다.
Conceptual Captions 데이터셋에서는 훈련 데이터의 0.1%만으로도 최고의 기준 모델 대비 5.4% 높은 CIDEr 점수를 확보한다.
0.5% 및 1% 데이터 스케일에서도 높은 성능을 유지하여 일관된 데이터 효율성 향상을 입증한다.
제거 실험 결과, 자기 복원 주의 메커니즘과 언어 지식 주입 모두 성능 향상에 기여하는 것으로 확인된다.
자기 복원 활성화 유닛은 기울기 소실을 방지하고 희소 활성화 조건에서도 안정적인 훈련을 가능하게 한다.
VisualGPT는 단일 모달 텍스트로 사전 훈련된 언어 모델을 활용함으로써 데이터 효율적인 이미지 캡션 생성에서 최신 기술 수준의 성능을 달성한 최초의 방법이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.