QUICK REVIEW

[논문 리뷰] Tag2Text: Guiding Vision-Language Model via Image Tagging

Xinyu Huang, Youcai Zhang|arXiv (Cornell University)|2023. 03. 10.

Multimodal Machine Learning Applications인용 수 11

한 줄 요약

Tag2Text는 주석이 없는 이미지–텍스트 쌍에서 학습된 이미지 태깅을 통해 비전-언어 사전학습을 안내하고, 강력한 제로샷 태깅 및 생성 및 정합 태스크의 향상을 달성합니다.

ABSTRACT

This paper presents Tag2Text, a vision language pre-training (VLP) framework, which introduces image tagging into vision-language models to guide the learning of visual-linguistic features. In contrast to prior works which utilize object tags either manually labeled or automatically detected with an off-the-shelf detector with limited performance, our approach explicitly learns an image tagger using tags parsed from image-paired text and thus provides a strong semantic guidance to vision-language models. In this way, Tag2Text can utilize large-scale annotation-free image tags in accordance with image-text pairs, and provides more diverse tag categories beyond objects. As a result, Tag2Text demonstrates the ability of a foundational image tagging model, with superior zero-shot performance even comparable to fully supervised models. Moreover, by leveraging the tagging guidance, Tag2Text effectively enhances the performance of vision-language models on both generation-based and alignment-based tasks. Across a wide range of downstream benchmarks, Tag2Text achieves state-of-the-art results with similar model sizes and data scales, demonstrating the efficacy of the proposed tagging guidance. Code, demo and pre-trained models are available at https://github.com/xinyu1205/recognize-anything.

연구 동기 및 목표

객관적 개선: 객체를 넘어선 풍부하고 주석 없는 이미지 태그를 도입해 비전-언어 사전학습을 개선하려는 동기 부여
확장 가능한 태깅 가이드를 가능하게: 수동 라벨링이나 기성 탐지기 대신 짝지어진 텍스트로 태그를 도출
탐지기 없는 아키텍처 하에서 태깅 가이다가 생성 기반 및 정합 기반 VL 태스크를 모두 향상시킨다는 것을 보여주기
대규모의 다양하고 포괄적인 태그 세트(3,429개 카테고리)가 제로샷 태깅 및 다운스트림 VL 벤치마크를 향상시킴

제안 방법

이미지–텍스트 쌍에서 텍스트 의미 구문 분석기를 사용해 3,429개의 일반 태그 카테고리를 생성하는 방식으로 이미지 태그를 채굴
수동 주석 없이 parsed 태그를 예측하도록 학습하는 이미지 태깅 헤드를 도입
이미지 특성에 조건부로 캡션을 생성하고 할당된 태그를 활용하는 프리트레이닝 과제로 이미지-태그-텍스트 생성을 제안
거친 ITC 및 미세한 ITM 손실을 사용하는 이미지-텍스트 정렬 구성 요소를 추가하고 태그에 의해 안내되는 하드 네거티브 마이닝을 활용
다중 작업 목적어로 학습: 태깅, 생성(이미지-태그-텍스트 생성) 및 정렬(ITC/ITM)
사용자가 제공한 태그가 캡션 생성을 구동하고 검색을 이끌 수 있는 태그 가이드 추론을 허용

실험 결과

연구 질문

RQ1주석 없는 텍스트에서 파싱된 이미지 태그가 비전-언어 사전학습에 강력한 의미 가이드를 제공하는가?
RQ2태그를 이용한 탐지기 없는 VL 사전학습이 생성 기반 및 정합 기반 태스크를 모두 개선하는가? 탐지기 기반 또는 탐지기 없는 기준선과 비교하여?
RQ3태깅 가이드가 제로샷 태깅, 캡션 품질, 크로스모달 검색에 미치는 영향은 무엇인가?
RQ4VL 학습에 유익한 태그의 종류와 수는 얼마나 되며 어떤 태그가 유익한가(객체, 장면, 속성, 행동 등)?

주요 결과

Tag2Text는 OpenImages 및 COCO에서 SOTA 비전-언어 모델과 비교해 우수한 제로샷 이미지 태깅 성과를 달성한다.
이미지 태깅 가이드는 탐지기 없는 VL 모델에서 생성 기반 태스크(캡션)와 정합 기반 태스크(이미지-텍스트 검색)를 모두 향상시킨다.
4M 및 14M 이미지–텍스트 쌍으로의 프리트레이닝은 태깅, 캡션 작성 및 검색 결과를 벤치마크 전반에서 강하게 이끌며, Tag2Text-Swin이 특히 우수한 성능을 보인다.
태깅 헤드와 대규모의 다양하고 포괄적인 태그 세트가 탐지기 기반 접근 방식보다 이미지와 텍스트 간의 다리를 더 잘 형성하게 하면서도 엔드-투-엔드 학습에서 효율성을 유지한다.
두 단계의 프리트레이닝 및 미세튜닝 패러다임(대규모 텍스트 파생 태그에 대한 프리트레이닝 후 다운스트림 태스크에 파인튜닝)은 다중 라벨 인식 및 다운스트림 VL 성능을 높인다.
태깅 가이드는 캡션 작성의 제어 가능성을 제공하여 사용자가 지정한 태그로 생성 설명을 조정할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.