QUICK REVIEW

[논문 리뷰] ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data

Di Qi, Lin Su|arXiv (Cornell University)|2020. 01. 22.

Multimodal Machine Learning Applications참고 문헌 30인용 수 155

한 줄 요약

ImageBERT는 LAIT 및 기타 데이터셋에서 다단계 파이프라인으로 사전 학습된 Transformer 기반의 비전-언어 모델로, 네 가지 태스크(MLM, MOC, MRFR, ITM)를 사용하여 MSCOCO와 Flickr30k에서 최첨단 이미지-텍스트 검색 성능을 달성합니다.

ABSTRACT

In this paper, we introduce a new vision-language pre-trained model -- ImageBERT -- for image-text joint embedding. Our model is a Transformer-based model, which takes different modalities as input and models the relationship between them. The model is pre-trained on four tasks simultaneously: Masked Language Modeling (MLM), Masked Object Classification (MOC), Masked Region Feature Regression (MRFR), and Image Text Matching (ITM). To further enhance the pre-training quality, we have collected a Large-scale weAk-supervised Image-Text (LAIT) dataset from Web. We first pre-train the model on this dataset, then conduct a second stage pre-training on Conceptual Captions and SBU Captions. Our experiments show that multi-stage pre-training strategy outperforms single-stage pre-training. We also fine-tune and evaluate our pre-trained ImageBERT model on image retrieval and text retrieval tasks, and achieve new state-of-the-art results on both MSCOCO and Flickr30k datasets.

연구 동기 및 목표

공동 이미지-텍스트 임베딩을 위한 Transformer 기반 모델을 개발한다.
다단계 사전 학습을 통해 대규모 약지도 학습 이미지-텍스트 데이터셋(LAIT)과 공개 데이터를 활용한다.
언어, 시각 및 크로스모달 상호작용을 모델링하기 위한 네 가지 사전 학습 태스크를 설계하고 평가한다.
이미지-텍스트 검색 태스크에 미세조정하고 MSCOCO와 Flickr30k에서 기존 최첨단과 비교한다.

제안 방법

RoI 기반 시각 토큰과 텍스트 토큰을 모두 입력으로 받는 다중 모달 Transformer를 사용한다.
Faster-RCNN의 RoI 특징과 5-D 공간 임베딩을 사용해 이미지를 표현하고 이를 단어 조각(text piece) 임베딩과 융합한다.
네 가지 태스크로 사전 학습한다: MLM (Masked Language Modeling), MOC (Masked Object Classification), MRFR (Masked Region Feature Regression), ITM (Image-Text Matching).
LAIT에서 Stage-1, Conceptual Captions 및 SBU Captions에서 Stage-2로 이중 단계의 다단계 사전 학습을 채택한 뒤, 다운스트림 검색 태스크에 미세조정한다.
이미지-텍스트 및 텍스트-이미지 검색 목표로 다양한 손실(Binary BCE, 다중 부정 엔트로피와 함께하는 교차 엔트로피, Triplet)을 사용해 랭킹 마진을 최대화하도록 미세 조정한다.

실험 결과

연구 질문

RQ1다단계 사전 학습이 크로스 모달 표현을 검색 태스크에 대해 향상시키는가?
RQ2다양한 사전 학습 데이터(LAIT, CC, SBU)가 이미지-텍스트 검색에서 제로샷 및 미세조정 성능에 어떤 영향을 미치는가?
RQ3아키텍처 선택(RoI 개수, 글로벌 피처)와 사전 학습 태스크(MRFR, MOC, MLM)가 성능에 어떤 영향을 주는가?
RQ4ImageBERT가 미세조정 후 MSCOCO와 Flickr30k에서 이미지 및 문장 검색에 대해 최첨단 결과를 달성할 수 있는가?

주요 결과

방법	Flickr30k 이미지 검색 R@1	Flickr30k 이미지 검색 R@5	Flickr30k 이미지 검색 R@10	Flickr30k 문장 검색 R@1	Flickr30k 문장 검색 R@5	Flickr30k 문장 검색 R@10	MSCOCO 이미지 검색 R@1	MSCOCO 이미지 검색 R@5	MSCOCO 이미지 검색 R@10	MSCOCO 문장 검색 R@1	MSCOCO 문장 검색 R@5	MSCOCO 문장 검색 R@10
ImageBERT (1k Test set)	73.1	92.6	96.0	87.0	97.6	99.2	73.6	94.3	97.2	85.4	98.7	99.8
ImageBERT (5k Test set)	-	-	-	-	-	-	50.5	78.7	87.1	66.4	89.8	94.4

다단계 사전 학습이 검색 태스크에서 단일 단계보다 성능이 우수하다.
사전 학습된 ImageBERT는 제로샷에서 MSCOCO의 새로운 최첨단 결과를 보이고(stage-2) UNITER가 일부 제로샷 설정에서 더 나은 성능을 보일 수 있다.
미세조정된 ImageBERT는 Flickr30k 및 MSCOCO의 1k 테스트 세트와 5k 테스트 세트 모두에서 새로운 최첨단 결과를 달성한다.
사전 학습에 LAIT를 포함하고 CC 및 SBU와 결합하면 성능이 향상된다(LAIT+CC+SBU가 LAIT 단독을 능가한다).
100개의 RoI를 사용하고 MRFR 손실을 도입하면 제로샷 및 미세조정 검색 성능이 크게 향상되며, Binary+CE+Triplet 미세조정이 강력한 결과를 낳는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.