[논문 리뷰] Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts
X-VLM은 바운딩 박스 입력 없이 텍스트를 시각적 개념(객체, 영역, 이미지)과 정렬하여 다중 수준의 비전-언어 사전 학습을 수행하고, 여러 V+L 작업에서 최첨단을 달성합니다.
Most existing methods in vision language pre-training rely on object-centric features extracted through object detection and make fine-grained alignments between the extracted features and texts. It is challenging for these methods to learn relations among multiple objects. To this end, we propose a new method called X-VLM to perform `multi-grained vision language pre-training.' The key to learning multi-grained alignments is to locate visual concepts in the image given the associated texts, and in the meantime align the texts with the visual concepts, where the alignments are in multi-granularity. Experimental results show that X-VLM effectively leverages the learned multi-grained alignments to many downstream vision language tasks and consistently outperforms state-of-the-art methods.
연구 동기 및 목표
- 객체 중심이나 이미지 전체 표현을 넘는 비전-언어 정합 학습의 동기를 제시한다.
- 객체, 영역, 이미지 수준의 시각적 개념과 텍스트를 연관시켜 다중 수준의 정합을 가능하게 한다.
- 시각적 개념의 위치를 함께 찾고 이를 텍스트 묘사와 일치시키는 학습 목표를 개발한다.
- 추론 시 바운딩 박스 입력 없이 하위 V+L 작업 전반에서 효과를 입증한다.
제안 방법
- 시각적 개념을 비전 트랜스포머의 다중 수준 출력으로 표현하고, 여기에는 객체, 영역, 전체 이미지가 포함된다.
- 각 이미지에 다중 바운딩 박스가 있고 각 박스가 연결된 관련 개념의 텍스트 설명과 연결되도록 사전 학습 데이터를 구성한다.
- 바운딩 박스 예측(박스 회귀 + IoU) 및 정합을 위한 다중 작업 손실(대조 손실, 매칭 손실, 마스크된 언어 모델링 손실)로 최적화한다.
- 각 계층에서 교차 주의를 통해 시각 및 언어 특성을 융합하기 위해 교차 모달 트랜스포머를 사용한다.
- 데이터 효율성과 확장성을 평가하기 위해 4M 및 16M 이미지 설정으로 학습하고, AdamW 최적화와 스케줄된 학습률 워밍업을 사용한다.
- 추론 시 바운딩 박스 주석을 피하고, 학습된 다중-그레뉼러 정합을 하위 작업에 활용한다.
실험 결과
연구 질문
- RQ1다중 수준의 시각적 개념(객체, 영역, 이미지 수준의 개념)을 사전 학습 중에 텍스트 설명과 정렬할 수 있는가?
- RQ2시각적 개념을 함께 위치시키고 이를 텍스트와 정렬하는 것이 검색, 추론, 정합, 캡션 작성 작업의 성능을 향상시키는가?
- RQ3표준 벤치마크에서 객체 중심 및 거친 수준의 V+L 모델과 비교하여 X-VLM의 성능은 어떤가?
- RQ4중간 규모의 모델과 학습 데이터로도 강력한 V+L 성능을 달성하는 것이 가능한가?
주요 결과
- X-VLM은 4M 및 16M 사전 학습 설정 모두에서 이미지-텍스트 검색(MSCOCO 및 Flickr30K)에서 최첨단 방법을 능가한다.
- MSCOCO에서, X-VLM(4M)은 TR에서 80.4/95.5/98.2, IR에서 63.1/85.7/91.6을 달성하고, X-VLM(16M)은 TR에서 81.2/95.6/98.2, IR에서 63.4/85.8/91.5를 달성한다.
- X-VLM은 VinVL 및 다른 베이스라인에 비해 시각 추론(VQA 및 NLVR2)과 시각적 정합(RefCOCO+)에서 개선을 보이며, 특히 RefCOCO+에서 UNITER에 비해 4.5% 절대적 이득을 얻는다.
- X-VLM은 SoTA 생성 방법과 견줄 만한 이미지 캡션 생성 결과를 제공하며, 미세 조정 후 CIDEr 점수의 향상을 보인다.
- 객체 또는 영역 개념 제거나 bbox 손실 제거가 성능을 저하시킨다는 것을 보여주고, 다중-그레뉼러 학습의 중요성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.