Skip to main content
QUICK REVIEW

[논문 리뷰] VinVL: Making Visual Representations Matter in Vision-Language Models

Pengchuan Zhang, Xiujun Li|arXiv (Cornell University)|2021. 01. 02.
Multimodal Machine Learning Applications인용 수 79
한 줄 요약

이 논문은 광범위한 공공 데이터셋을 기반으로 사전 훈련된 더 크고 더 잘 설계된 객체 검출 모델인 VinVL을 제안하여 시각-언어(VL) 작업을 위한 더 풍부한 시각적 표현을 생성한다. 이러한 향상된 특징을 트랜스포머 기반의 VL 융합 모델(Oscar+)에 입력함으로써, 이 접근법은 일곱 개인 공개 벤치마크에서 최신 기술 성능(SOTA)을 달성하며, 고품질의 시각적 특징이 VL 모델 성능을 크게 향상시킨다는 것을 입증한다.

ABSTRACT

This paper presents a detailed study of improving visual representations for vision language (VL)tasks and develops an improved object detection model to provide object-centric representations of images. Compared to the most widely used bottom-up and top-down model [2], the new model is bigger,better-designed for VL tasks, and pre-trained on much larger training corpora that combine multiple public annotated object detection datasets. Therefore, it can generate representations of a richer collection of visual objects and concepts. While previous VL research focuses mainly on improving the vision-language fusion model and leaves the object detection model improvement untouched, we show that visual features matter significantly in VL models. In our experiments we feed the visual features generated by the new object detection model into a Transformer-based VL fusion model OSCAR[21],and utilize an improved approach OSCAR+ to pre-train the VL model and fine-tune it on a wide range of downstream VL tasks. Our results show that the new visual features significantly improve the performance across all VL tasks, creating new state-of-the-art results on seven public benchmarks. We will release the new object detection model to public.

연구 동기 및 목표

  • 더 포괄적인 객체 검출 모델을 개발하여 시각-언어 작업을 위한 시각적 표현을 향상시키는 것.
  • 이전 VL 연구가 융합 모델에 집중하면서 시각적 특징 추출의 향상에 소홀해진 점을 보완하는 것.
  • 더 큰 다양성 있는 애너테이션 기반 객체 검출 데이터셋 코퍼스를 활용해 객체 검출 모델을 사전 훈련하여 더 풍부한 시각적 개념 커버리지 확보하는 것.
  • 더 나은 시각적 특징 자체가 하류 VL 모델 성능을 크게 향상시킬 수 있음을 입증하는 것.

제안 방법

  • 시각-언어 작업에 최적화된 더 크고 더 견고한 객체 검출 모델의 설계 및 훈련.
  • 다양한 공공 객체 검출 데이터셋의 병합 코퍼스를 활용해 객체 검출기의 사전 훈련을 수행하여 시각적 표현 품질 향상.
  • 새로운 검출기에서 얻은 객체 중심의 시각적 특징을 트랜스포머 기반의 VL 융합 모델(Oscar+)에 입력.
  • 다양한 하류 VL 작업에서 개선된 사전 훈련 및 미세조정 전략(Oscar+)을 활용해 VL 모델을 미세조정.
  • 향상된 시각적 특징을 활용해 여러 시각-언어 벤치마크에서의 성능 향상 달성.

실험 결과

연구 질문

  • RQ1더 크고 더 잘 설계된 객체 검출 모델이 시각-언어 작업을 위한 시각적 표현을 크게 향상시킬 수 있는가?
  • RQ2시각적 특징 품질 향상이 융합 모델 향상과 무관하게 VL 모델 성능 향상에 측정 가능한 기여를 할 수 있는가?
  • RQ3대규모 사전 훈련을 통한 더 풍부한 시각적 표현은 하류 VL 벤치마크 성능에 얼마나 큰 영향을 미치는가?
  • RQ4통합된 시각적 특징 추출기로 다양한 시각-언어 작업에서 최신 기술 성능을 달성할 수 있는가?

주요 결과

  • VinVL 객체 검출기가 생성한 새로운 시각적 특징은 평가된 모든 시각-언어 작업에서 성능 향상을 크게 개선한다.
  • 이 방법은 일곱 개인 공개 시각-언어 벤치마크에서 새로운 최신 기술 성능을 달성하며, 일관된 성능 향상을 보여준다.
  • 성능 향상의 주요 원인은 대규모 사전 훈련을 통한 향상된 품질과 다양성의 시각적 표현에 기인한다.
  • 결과는 이전 연구에서 자주 간과되지만, 시각적 특징 품질이 VL 모델 성능에 결정적인 요소임을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.