Skip to main content
QUICK REVIEW

[논문 리뷰] RedCaps: web-curated image-text data created by the people, for the people

Karan Desai, Gautam Kaul|arXiv (Cornell University)|2021. 11. 22.
Multimodal Machine Learning Applications인용 수 33
한 줄 요약

RedCaps는 Reddit에서 수집된 12M 이미지-텍스트 데이터셋으로, 최소한의 필터링과 서브레딧 기반 큐레이션으로 캡션 생성 모델 학습 및 이전 웹 데이터 소스들보다 우수한 전이 가능한 시각 표현을 가능하게 한다.

ABSTRACT

Large datasets of paired images and text have become increasingly popular for learning generic representations for vision and vision-and-language tasks. Such datasets have been built by querying search engines or collecting HTML alt-text -- since web data is noisy, they require complex filtering pipelines to maintain quality. We explore alternate data sources to collect high quality data with minimal filtering. We introduce RedCaps -- a large-scale dataset of 12M image-text pairs collected from Reddit. Images and captions from Reddit depict and describe a wide variety of objects and scenes. We collect data from a manually curated set of subreddits, which give coarse image labels and allow us to steer the dataset composition without labeling individual instances. We show that captioning models trained on RedCaps produce rich and varied captions preferred by humans, and learn visual representations that transfer to many downstream tasks.

연구 동기 및 목표

  • Reddit의 인간이 만든 콘텐츠를 활용하여 고품질 이미지-텍스트 쌍의 데이터 소스 선택을 정당화한다.
  • 서브레딧 주제에서 얻은 대략적인 라벨을 갖춘 크고 확장 가능한 이미지-텍스트 데이터셋을 구축한다.
  • 풍부한 캡션을 생성하고 전이 가능한 시각 표현을 학습하는 비전-언어 모델의 학습을 가능하게 한다.
  • RedCaps에서 학습된 표현의 다양한 하류 작업으로의 전이 가능성을 평가한다.

제안 방법

  • 고화질 이미지 게시물이 많은 수작업으로 큐레이션된 350개 서브레딧 세트에서 이미지-텍스트 쌍을 수집한다.
  • 이미지 게시물을 세 가지 호스팅 도메인으로 필터링하고 저조회수 또는 NSFW 콘텐츠를 제거한다; 최소한의 캡션 정리를 적용한다.
  • 학습 중에 데이터셋 스타일을 반영하기 위해 캡션 앞에 Reddit 서브레딧 토큰을 접두사로 사용한다.
  • VirTex를 더 깊은 트랜스포머, 30k 어휘와 서브레딧 토큰으로 캡션을 접두사하는 VirTex-v2로 개조한다.
  • RedCaps에서 학습하고 SBU 및 CC-3M과 비교하여 제로샷, 선형프로브 및 하류 작업에서의 전이 성능을 평가한다.
  • 오픈소스 학습 코드와 사전 학습된 체크포인트가 공개된다.

실험 결과

연구 질문

  • RQ1Reddit과 같이 인간 중심의 플랫폼을 선택하고 서브레딧을 수동으로 큐레이션하여 웹 소스에서 고품질 이미지-텍스트 데이터를 얻을 수 있는가?
  • RQ2Reddit 기반 RedCaps에서 학습된 표현이 SBU 또는 CC-3M에서 학습된 표현보다 하류 비전 작업으로의 전이가 더 잘 되는가?
  • RQ3다양하고 커뮤니티 주도적 캡션 스타일로 고품질 이미지 캡션 생성을 RedCaps가 지원하는가?
  • RQ4서브레딧 조건화 캡션이 언어 및 시각 표현 학습에 어떤 영향을 미치는가?
  • RQ5비전-언어 모델에 Reddit 유래 이미지-텍스트 데이터를 사용할 때의 윤리적 고려사항과 잠재적 편향은 무엇인가?

주요 결과

  • RedCaps는 350개 서브레딧에서 12,011,111개의 이미지-텍스트 쌍을 포함하고 있습니다(2008–2020; 필터링 후 최종 데이터셋).
  • RedCaps에서 학습된 캡션 모델은 풍부하고 다양한 캡션을 생성하며 사람들로부터 CC-3M 캡션보다 선호됩니다.
  • RedCaps로 학습된 특성은 열하의 11개 하류 데이터셋으로 전이되며 대부분의 경우 제로샷 및 선형프로브 설정에서 SBU 및 CC-3M 베이스라인을 능가합니다.
  • 제로샷 및 선형프로브 평가에서 RedCaps가 SBU 및 CC-3M에 비해 여러 데이터셋에서 더 높은 점수를 얻고 표준 전이 작업에서도 경쟁력 있는 성능을 보임을 보여줍니다.
  • 캡션 평가에서 인간 작업자들이 CC-3M에 비해 대다수의 테스트 이미지에 대해 RedCaps 생성 캡션을 선호하는 것으로 나타났습니다.
  • RedCaps는 일부 다국어 데이터셋의 영어 하위집합보다 크고 CC-12M에 비견되며 실험적으로도 공개적으로 접근 가능합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.