Skip to main content
QUICK REVIEW

[논문 리뷰] Tag2Text: Guiding Vision-Language Model via Image Tagging

Xinyu Huang, Youcai Zhang|arXiv (Cornell University)|2023. 03. 10.
Multimodal Machine Learning Applications인용 수 11
한 줄 요약

Tag2Text는 주석이 없는 이미지–텍스트 쌍에서 학습된 이미지 태깅을 통해 비전-언어 사전학습을 안내하고, 강력한 제로샷 태깅 및 생성 및 정합 태스크의 향상을 달성합니다.

ABSTRACT

This paper presents Tag2Text, a vision language pre-training (VLP) framework, which introduces image tagging into vision-language models to guide the learning of visual-linguistic features. In contrast to prior works which utilize object tags either manually labeled or automatically detected with an off-the-shelf detector with limited performance, our approach explicitly learns an image tagger using tags parsed from image-paired text and thus provides a strong semantic guidance to vision-language models. In this way, Tag2Text can utilize large-scale annotation-free image tags in accordance with image-text pairs, and provides more diverse tag categories beyond objects. As a result, Tag2Text demonstrates the ability of a foundational image tagging model, with superior zero-shot performance even comparable to fully supervised models. Moreover, by leveraging the tagging guidance, Tag2Text effectively enhances the performance of vision-language models on both generation-based and alignment-based tasks. Across a wide range of downstream benchmarks, Tag2Text achieves state-of-the-art results with similar model sizes and data scales, demonstrating the efficacy of the proposed tagging guidance. Code, demo and pre-trained models are available at https://github.com/xinyu1205/recognize-anything.

연구 동기 및 목표

  • 객관적 개선: 객체를 넘어선 풍부하고 주석 없는 이미지 태그를 도입해 비전-언어 사전학습을 개선하려는 동기 부여
  • 확장 가능한 태깅 가이드를 가능하게: 수동 라벨링이나 기성 탐지기 대신 짝지어진 텍스트로 태그를 도출
  • 탐지기 없는 아키텍처 하에서 태깅 가이다가 생성 기반 및 정합 기반 VL 태스크를 모두 향상시킨다는 것을 보여주기
  • 대규모의 다양하고 포괄적인 태그 세트(3,429개 카테고리)가 제로샷 태깅 및 다운스트림 VL 벤치마크를 향상시킴

제안 방법

  • 이미지–텍스트 쌍에서 텍스트 의미 구문 분석기를 사용해 3,429개의 일반 태그 카테고리를 생성하는 방식으로 이미지 태그를 채굴
  • 수동 주석 없이 parsed 태그를 예측하도록 학습하는 이미지 태깅 헤드를 도입
  • 이미지 특성에 조건부로 캡션을 생성하고 할당된 태그를 활용하는 프리트레이닝 과제로 이미지-태그-텍스트 생성을 제안
  • 거친 ITC 및 미세한 ITM 손실을 사용하는 이미지-텍스트 정렬 구성 요소를 추가하고 태그에 의해 안내되는 하드 네거티브 마이닝을 활용
  • 다중 작업 목적어로 학습: 태깅, 생성(이미지-태그-텍스트 생성) 및 정렬(ITC/ITM)
  • 사용자가 제공한 태그가 캡션 생성을 구동하고 검색을 이끌 수 있는 태그 가이드 추론을 허용

실험 결과

연구 질문

  • RQ1주석 없는 텍스트에서 파싱된 이미지 태그가 비전-언어 사전학습에 강력한 의미 가이드를 제공하는가?
  • RQ2태그를 이용한 탐지기 없는 VL 사전학습이 생성 기반 및 정합 기반 태스크를 모두 개선하는가? 탐지기 기반 또는 탐지기 없는 기준선과 비교하여?
  • RQ3태깅 가이드가 제로샷 태깅, 캡션 품질, 크로스모달 검색에 미치는 영향은 무엇인가?
  • RQ4VL 학습에 유익한 태그의 종류와 수는 얼마나 되며 어떤 태그가 유익한가(객체, 장면, 속성, 행동 등)?

주요 결과

  • Tag2Text는 OpenImages 및 COCO에서 SOTA 비전-언어 모델과 비교해 우수한 제로샷 이미지 태깅 성과를 달성한다.
  • 이미지 태깅 가이드는 탐지기 없는 VL 모델에서 생성 기반 태스크(캡션)와 정합 기반 태스크(이미지-텍스트 검색)를 모두 향상시킨다.
  • 4M 및 14M 이미지–텍스트 쌍으로의 프리트레이닝은 태깅, 캡션 작성 및 검색 결과를 벤치마크 전반에서 강하게 이끌며, Tag2Text-Swin이 특히 우수한 성능을 보인다.
  • 태깅 헤드와 대규모의 다양하고 포괄적인 태그 세트가 탐지기 기반 접근 방식보다 이미지와 텍스트 간의 다리를 더 잘 형성하게 하면서도 엔드-투-엔드 학습에서 효율성을 유지한다.
  • 두 단계의 프리트레이닝 및 미세튜닝 패러다임(대규모 텍스트 파생 태그에 대한 프리트레이닝 후 다운스트림 태스크에 파인튜닝)은 다중 라벨 인식 및 다운스트림 VL 성능을 높인다.
  • 태깅 가이드는 캡션 작성의 제어 가능성을 제공하여 사용자가 지정한 태그로 생성 설명을 조정할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.