QUICK REVIEW

[논문 리뷰] ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Wonjae Kim, Bokyung Son|arXiv (Cornell University)|2021. 02. 05.

Multimodal Machine Learning Applications참고 문헌 62인용 수 538

한 줄 요약

ViLT는 패치 투영된 이미지 토큰과 단일 트랜스포머를 사용하여 멀티모달 상호작용을 구현하는 최소한의 비전-및-언어 사전 학습 모델을 제시하며, 지역 기반 또는 합성곱 시각 임베더를 제거해 추론 속도를 크게 높이면서 경쟁력 있는 성능을 달성합니다.

ABSTRACT

Vision-and-Language Pre-training (VLP) has improved performance on various joint vision-and-language downstream tasks. Current approaches to VLP heavily rely on image feature extraction processes, most of which involve region supervision (e.g., object detection) and the convolutional architecture (e.g., ResNet). Although disregarded in the literature, we find it problematic in terms of both (1) efficiency/speed, that simply extracting input features requires much more computation than the multimodal interaction steps; and (2) expressive power, as it is upper bounded to the expressive power of the visual embedder and its predefined visual vocabulary. In this paper, we present a minimal VLP model, Vision-and-Language Transformer (ViLT), monolithic in the sense that the processing of visual inputs is drastically simplified to just the same convolution-free manner that we process textual inputs. We show that ViLT is up to tens of times faster than previous VLP models, yet with competitive or better downstream task performance. Our code and pre-trained weights are available at https://github.com/dandelin/vilt.

연구 동기 및 목표

비전-언어 사전 학습(VLP)에서 무거운 시각 임베더와 지역 감독에 대한 의존도를 줄이려는 동기를 제시합니다.
이미지를 패치로 처리하고 텍스트와 함께 단일 트랜스포머에서 처리하는 최소한의 합성곱 없는 ViLT 아키텍처를 제안합니다.
실행 속도 향상과 파라미터 감소 같은 효율성 향상을 보여주며, 다운스트림 성능도 경쟁력을 유지합니다.

제안 방법

합성곱 백본이나 영역 특징 없이 패치 투영 이미지 임베딩을 직접 ViT에서 영감을 받은 트랜스포머로 입력하는 ViLT를 소개합니다.
VLP에서 일반적인 두 가지 사전 학습 목표: image-text matching (ITM)와 masked language modeling (MLM)를 사용합니다.
크로스모달 학습을 향상시키기 위해 MLM에 전체 단어 마스킹(WWM)을 적용합니다.
미세조정 중 이미지 증강(RandAugment)을 도입해 일반화 성능을 향상시킵니다.
선택적으로 텍스트 토큰과 시각 패치를 정렬하기 위해 IPOT 기반 최적 수송을 통한 워드-패치 정렬(WPA)을 도입합니다.

실험 결과

연구 질문

RQ1합성곱 시각 구성 요소나 영역 기반 감독 없이도 비전-언어 모델이 표준 VLP 작업에서 잘 작동할 수 있는가?
RQ2전체 단어 마스킹 및 이미지 증강과 같은 사전 학습 전략이 최소 ViLT 설정에서 크로스모달 성능에 어떤 영향을 미치는가?
RQ3컨볼루션 없이 패치 기반 시각 임베딩을 사용하는 경우 영역 특징 또는 격자 특징 VLP 모델에 비해 계산 효율성 이점은 무엇인가?

주요 결과

ViLT는 영역 특징 기반 모델보다 수십 배 더 빠른 추론을 달성할 수 있으며 격자 특징 모델보다 최소 네 배 이상 빠르면서 다운스트림 성능은 경쟁력 있거나 더 우수합니다.
ViLT는 heavy visual embedders를 생략함에도 VQA, NLVR2 및 검색 벤치마크에서 경쟁력 있는 성능을 보입니다.
전체 단어 마스킹과 이미지 증강은 ViLT의 다운스트림 성능을 크게 향상시킵니다.
더 긴 학습 단계와 미세조정 시 RandAugment를 사용하는 것이 일반적으로 결과를 개선하는 반면, 추가적인 MRM 유사 목표(MPP)를 추가하는 것은 어블레이션에서 이점이 보이지 않았습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.