Skip to main content
QUICK REVIEW

[논문 리뷰] ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data

Di Qi, Lin Su|arXiv (Cornell University)|2020. 01. 22.
Multimodal Machine Learning Applications참고 문헌 30인용 수 155
한 줄 요약

ImageBERT는 LAIT 및 기타 데이터셋에서 다단계 파이프라인으로 사전 학습된 Transformer 기반의 비전-언어 모델로, 네 가지 태스크(MLM, MOC, MRFR, ITM)를 사용하여 MSCOCO와 Flickr30k에서 최첨단 이미지-텍스트 검색 성능을 달성합니다.

ABSTRACT

In this paper, we introduce a new vision-language pre-trained model -- ImageBERT -- for image-text joint embedding. Our model is a Transformer-based model, which takes different modalities as input and models the relationship between them. The model is pre-trained on four tasks simultaneously: Masked Language Modeling (MLM), Masked Object Classification (MOC), Masked Region Feature Regression (MRFR), and Image Text Matching (ITM). To further enhance the pre-training quality, we have collected a Large-scale weAk-supervised Image-Text (LAIT) dataset from Web. We first pre-train the model on this dataset, then conduct a second stage pre-training on Conceptual Captions and SBU Captions. Our experiments show that multi-stage pre-training strategy outperforms single-stage pre-training. We also fine-tune and evaluate our pre-trained ImageBERT model on image retrieval and text retrieval tasks, and achieve new state-of-the-art results on both MSCOCO and Flickr30k datasets.

연구 동기 및 목표

  • 공동 이미지-텍스트 임베딩을 위한 Transformer 기반 모델을 개발한다.
  • 다단계 사전 학습을 통해 대규모 약지도 학습 이미지-텍스트 데이터셋(LAIT)과 공개 데이터를 활용한다.
  • 언어, 시각 및 크로스모달 상호작용을 모델링하기 위한 네 가지 사전 학습 태스크를 설계하고 평가한다.
  • 이미지-텍스트 검색 태스크에 미세조정하고 MSCOCO와 Flickr30k에서 기존 최첨단과 비교한다.

제안 방법

  • RoI 기반 시각 토큰과 텍스트 토큰을 모두 입력으로 받는 다중 모달 Transformer를 사용한다.
  • Faster-RCNN의 RoI 특징과 5-D 공간 임베딩을 사용해 이미지를 표현하고 이를 단어 조각(text piece) 임베딩과 융합한다.
  • 네 가지 태스크로 사전 학습한다: MLM (Masked Language Modeling), MOC (Masked Object Classification), MRFR (Masked Region Feature Regression), ITM (Image-Text Matching).
  • LAIT에서 Stage-1, Conceptual Captions 및 SBU Captions에서 Stage-2로 이중 단계의 다단계 사전 학습을 채택한 뒤, 다운스트림 검색 태스크에 미세조정한다.
  • 이미지-텍스트 및 텍스트-이미지 검색 목표로 다양한 손실(Binary BCE, 다중 부정 엔트로피와 함께하는 교차 엔트로피, Triplet)을 사용해 랭킹 마진을 최대화하도록 미세 조정한다.

실험 결과

연구 질문

  • RQ1다단계 사전 학습이 크로스 모달 표현을 검색 태스크에 대해 향상시키는가?
  • RQ2다양한 사전 학습 데이터(LAIT, CC, SBU)가 이미지-텍스트 검색에서 제로샷 및 미세조정 성능에 어떤 영향을 미치는가?
  • RQ3아키텍처 선택(RoI 개수, 글로벌 피처)와 사전 학습 태스크(MRFR, MOC, MLM)가 성능에 어떤 영향을 주는가?
  • RQ4ImageBERT가 미세조정 후 MSCOCO와 Flickr30k에서 이미지 및 문장 검색에 대해 최첨단 결과를 달성할 수 있는가?

주요 결과

방법Flickr30k 이미지 검색 R@1Flickr30k 이미지 검색 R@5Flickr30k 이미지 검색 R@10Flickr30k 문장 검색 R@1Flickr30k 문장 검색 R@5Flickr30k 문장 검색 R@10MSCOCO 이미지 검색 R@1MSCOCO 이미지 검색 R@5MSCOCO 이미지 검색 R@10MSCOCO 문장 검색 R@1MSCOCO 문장 검색 R@5MSCOCO 문장 검색 R@10
ImageBERT (1k Test set)73.192.696.087.097.699.273.694.397.285.498.799.8
ImageBERT (5k Test set)------50.578.787.166.489.894.4
  • 다단계 사전 학습이 검색 태스크에서 단일 단계보다 성능이 우수하다.
  • 사전 학습된 ImageBERT는 제로샷에서 MSCOCO의 새로운 최첨단 결과를 보이고(stage-2) UNITER가 일부 제로샷 설정에서 더 나은 성능을 보일 수 있다.
  • 미세조정된 ImageBERT는 Flickr30k 및 MSCOCO의 1k 테스트 세트와 5k 테스트 세트 모두에서 새로운 최첨단 결과를 달성한다.
  • 사전 학습에 LAIT를 포함하고 CC 및 SBU와 결합하면 성능이 향상된다(LAIT+CC+SBU가 LAIT 단독을 능가한다).
  • 100개의 RoI를 사용하고 MRFR 손실을 도입하면 제로샷 및 미세조정 검색 성능이 크게 향상되며, Binary+CE+Triplet 미세조정이 강력한 결과를 낳는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.