[논문 리뷰] VinVL: Revisiting Visual Representations in Vision-Language Models
저자들은 여러 데이터셋에서 학습된 큰 규모의 객체 중심 시각 탐지기를 개발하여 더 풍부한 시각 특징을 생성하고, 이를 강화된 Oscar+ VL 사전 학습 파이프라인과 통합하여 일곱 가지 vision-language 태스크 전반에서 새로운 state-of-the-art 성과를 달성한다.
This paper presents a detailed study of improving visual representations for vision language (VL) tasks and develops an improved object detection model to provide object-centric representations of images. Compared to the most widely used \emph{bottom-up and top-down} model \cite{anderson2018bottom}, the new model is bigger, better-designed for VL tasks, and pre-trained on much larger training corpora that combine multiple public annotated object detection datasets. Therefore, it can generate representations of a richer collection of visual objects and concepts. While previous VL research focuses mainly on improving the vision-language fusion model and leaves the object detection model improvement untouched, we show that visual features matter significantly in VL models. In our experiments we feed the visual features generated by the new object detection model into a Transformer-based VL fusion model \oscar \cite{li2020oscar}, and utilize an improved approach \short\ to pre-train the VL model and fine-tune it on a wide range of downstream VL tasks. Our results show that the new visual features significantly improve the performance across all VL tasks, creating new state-of-the-art results on seven public benchmarks. We will release the new object detection model to public.
연구 동기 및 목표
- 더 풍부한 시각 특징이 vision-language 성능에 유의미하게 영향을 미친다는 것을 입증한다.
- VL 태스크를 위한 다양한 객체와 속성을 다루는 대규모 객체 탐지 모델을 개발한다.
- 향상된 시각 특징을 사용하여 통합 vision-language 모델(Oscar+)을 사전 학습 및 미세조정하여 다수의 VL 벤치마크를 향상시킨다.
제안 방법
- COCO, OpenImages, Objects365, Visual Genome을 결합한 통합 말뭉치에서 대규모 객체 탐지기를 사전 학습하여 1848개의 객체 클래스를 생성하고 그 중 524개의 속성을 포함한다.
- 객체-속성 탐지를 향상시키기 위해 속성 분기를 주입하고 Visual Genome에서 미세 조정한다.
- VL 태스크를 위한 특징 추출 속도를 높이는 효율적인 영역 특징 추출기를 사용한다.
- 이미지 태그 및 영역과 자막/QA를 정렬하는 3방향 대조 손실을 사용하여 Oscar+를 사전 학습한다.
- VQA, GQA, NLVR2, 이미지 자막 생성, NoCaps, 이미지/텍스트 검색을 포함한 일곱 가지 VL 태스크에서 Oscar+를 미세 조정한다.
실험 결과
연구 질문
- RQ1시각 특징의 품질과 다양성을 향상시키면 vision-language 태스크 전반의 성능이 향상되는가?
- RQ2더 크고 더 다양한 객체 중심 탐지기가 Transformer 기반 VL 융합 모델과 통합될 때 다운스트림 VL 이해 및 생성 태스크를 향상시킬 수 있는가?
- RQ3데이터, 모델 아키텍처 및 사전 학습 목표의 어떤 설계 선택이 VL 이득에 가장 기여하는가?
- RQ4새로운 시각 특징이 인식형 태스크(VQA, GQA)와 생성/검색 태스크(자막 생성, NoCaps, 검색, NLVR2) 모두의 성능에 어떻게 영향을 미치는가?
주요 결과
- 이전 OD 특징을 VinVL의 더 풍부한 영역 특징으로 교체하면 일곱 가지 VL 태스크에서 일관된 state-of-the-art 향상을 얻는다.
- VinVL의 개선 효과는 상당하며, 분석에 따르면 전체 개선의 약 95%가 시각 특징 향상에 기인한다.
- 새로운 객체 탐지기는 의미론적으로 의미 있는 영역의 커버리지를 늘리고 객체 개념과 속성을 풍부하게 한다.
- VinVL을 적용한 Oscar+가 VQA, GQA, NLVR2, NoCaps 및 검색 태스크에서 새로운 SOTA를 달성하고 이미지 자막 생성에는 경쟁력 있는 결과를 보인다.
- 효율적인 영역 특징 추출과 속성의 포함은 정확도 손실 없이 추론 속도를 높인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.