QUICK REVIEW

[논문 리뷰] UNITER: UNiversal Image-TExt Representation Learning

Yen-Chun Chen, Linjie Li|arXiv (Cornell University)|2019. 09. 25.

Multimodal Machine Learning Applications참고 문헌 62인용 수 184

한 줄 요약

UNITER는 조건부 마스킹과 Optimal Transport 기반의 Word-Region Alignment를 갖춘 통합 이미지-텍스트 Transformer를 사전 학습하여 여섯 개의 Vision-and-Language 태스크에서 최신 성능을 달성합니다.

ABSTRACT

Joint image-text embedding is the bedrock for most Vision-and-Language (V+L) tasks, where multimodality inputs are simultaneously processed for joint visual and textual understanding. In this paper, we introduce UNITER, a UNiversal Image-TExt Representation, learned through large-scale pre-training over four image-text datasets (COCO, Visual Genome, Conceptual Captions, and SBU Captions), which can power heterogeneous downstream V+L tasks with joint multimodal embeddings. We design four pre-training tasks: Masked Language Modeling (MLM), Masked Region Modeling (MRM, with three variants), Image-Text Matching (ITM), and Word-Region Alignment (WRA). Different from previous work that applies joint random masking to both modalities, we use conditional masking on pre-training tasks (i.e., masked language/region modeling is conditioned on full observation of image/text). In addition to ITM for global image-text alignment, we also propose WRA via the use of Optimal Transport (OT) to explicitly encourage fine-grained alignment between words and image regions during pre-training. Comprehensive analysis shows that both conditional masking and OT-based WRA contribute to better pre-training. We also conduct a thorough ablation study to find an optimal combination of pre-training tasks. Extensive experiments show that UNITER achieves new state of the art across six V+L tasks (over nine datasets), including Visual Question Answering, Image-Text Retrieval, Referring Expression Comprehension, Visual Commonsense Reasoning, Visual Entailment, and NLVR$^2$. Code is available at https://github.com/ChenRocks/UNITER.

연구 동기 및 목표

다양한 Vision-and-Language (V+L) 태스크 전반에 일반화될 수 있는 보편적 이미지-텍스트 표현의 필요성을 제시한다.
공동 다중 모달 임베딩을 학습하기 위해 네 가지 이미지-텍스트 데이터셋을 활용한 대규모 사전 학습 프레임워크를 개발한다.
교차 모달 정렬을 향상시키기 위해 MLM/MRM에 대한 조건부 마스킹과 Optimal Transport 기반의 새로운 Word-Region Alignment 태스크를 도입한다.
제안된 사전 학습이 다수의 다운스트림 V+L 벤치마크에서 개선을 보여주고, 태스크/데이터셋 기여를 분석한다.

제안 방법

Faster R-CNN 피처와 위치 정보를 이용해 이미지 영역을 인코딩하고; WordPieces와 위치 임베딩으로 텍스트 토큰을 인코딩하며; 다층 Transformer로 융합한다.
네 가지 작업으로 사전 학습한다: 이미지 영역에 조건화된 Masked Language Modeling (MLM), 텍스트에 조건화된 Masked Region Modeling (MRM) 세 가지 변형과 함께, Image-Text Matching (ITM), 그리고 Word-Region Alignment (WRA).
사전 학습 중 한 번에 하나의 모달리티만 마스킹되도록 조건부 마스킹을 사용하여 정렬 불일치를 방지한다.
단어 임베딩과 이미지 영역 임베딩 사이의 운송 계획을 학습하기 위해 Optimal Transport를 적용하고, 비용 기반 OT 거리를 WRA 손실로 최소화한다.
세 가지 MRM 변형을 탐색한다: Masked Region Feature Regression (MRFR), Masked Region Classification (MRC), 및 KL-발산(KL-divergence)을 사용하는 MRC (MRC-kl); 그리고 사전 학습 태스크와 데이터 소스의 조합을 평가한다.

실험 결과

연구 질문

RQ1하나의 대규모 사전 학습 모델이 결합된 멀티모달 임베딩을 통해 다양한 V+L 태스크에서 강력한 성능을 낳을 수 있는가?
RQ2조건부 마스킹과 OT 기반의 Word-Region Alignment가 이전 방법에 비해 교차 모달 정렬 및 다운스트림 태스크 성능을 향상시키는가?
RQ3다양한 V+L 벤치마크로의 이동성을 극대화하기 위한 최적의 사전 학습 태스크와 데이터셋의 조합은 무엇인가?
RQ4도메인 내외 소스로 사전 학습 데이터를 증가시키는 것이 다운스트림 결과에 어떻게 영향을 미치는가?

주요 결과

UNITER는 여섯 개의 V+L 태스크에서 아홉 개의 데이터셋으로 새로운 최첨단 성능을 달성했다.
조건부 마스킹과 OT-based WRA 모두 더 나은 교차 모달 정렬 및 성능에 기여한다.
MLM, ITM, MRM 변형들(특히 MRC-kl 및 MRFR)과 WRA의 최적 조합이 가장 큰 Meta-Sum 개선을 제공한다.
더 크고 다양한 데이터(도메인 내+도메인 외)에서의 사전 학습은 성능을 더욱 향상시키며, 데이터가 다운스트림 태스크 분포에서 벗어나면 이익은 감소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.