QUICK REVIEW

[논문 리뷰] Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text

Wanrong Zhu, Jack Hessel|arXiv (Cornell University)|2023. 04. 14.

Multimodal Machine Learning Applications인용 수 17

한 줄 요약

MMC4는 텍스트전용 c4 데이터셋의 문장 안에 이미지를 교차 배치하여 구축된 공개된 수십억 규모의 이미지-텍스트 말뭉치로, 다중모달 맥락 학습을 가능하게 한다; 문서 내 정합성이 크게 달성되며 프라이버시와 효율성을 위한 하위 집합을 제공하고, OpenFlamingo 실험을 통해 그 활용도가 검증된다.

ABSTRACT

In-context vision and language models like Flamingo support arbitrarily interleaved sequences of images and text as input. This format not only enables few-shot learning via interleaving independent supervised (image, text) examples, but also, more complex prompts involving interaction between images, e.g., "What do image A and image B have in common?" To support this interface, pretraining occurs over web corpora that similarly contain interleaved images+text. To date, however, large-scale data of this form have not been publicly available. We release Multimodal C4, an augmentation of the popular text-only C4 corpus with images interleaved. We use a linear assignment algorithm to place images into longer bodies of text using CLIP features, a process that we show outperforms alternatives. Multimodal C4 spans everyday topics like cooking, travel, technology, etc. A manual inspection of a random sample of documents shows that a vast majority (88%) of images are topically relevant, and that linear assignment frequently selects individual sentences specifically well-aligned with each image (80%). After filtering NSFW images, ads, etc., the resulting corpus consists of 101.2M documents with 571M images interleaved in 43B English tokens.

연구 동기 및 목표

다중모달 맥락 학습을 지원하기 위해 대규모의 공개적으로 이용 가능한 인터리브된 이미지-텍스트 말뭉치의 생성을 고무한다.
CLIP 기반 선형 할당을 사용하여 문서 내 이미지와 문장을 정렬하는 구성 파이프라인을 설명한다.
광범위한 주제와 문서 출처에 걸친 이미지의 품질, 관련성, 텍스트와의 정합성을 평가한다.
프라이버시 및 개발 요구를 해결하기 위해 필터링된 하위집합(mmc4-ff와 mmc4-core)을 제공한다.
mmc4-core 말뭉치에서 OpenFlamingo를 사용한 초기 다중모달 모델 학습의 이점을 입증한다.

제안 방법

웹페이지에서 이미지를 검색하고 이들을 이분 배정 설정으로 인터리브하여 텍스트 전용 c4 말뭉장을 확장한다.
각 문서 내에서 CLIP ViT-L/14를 사용하여 이미지-문장 간 유사도를 페어별로 계산한다.
한 문장당 한 이미지 제약 하에 이미지-문장을 매칭하기 위해 선형 할당 알고리즘을 적용한다.
다중 단계 파이프라인을 사용하여 크기, 종횡비, 중복, NSFW 콘텐츠를 필터링한다.
하위집합 mmc4-ff(얼굴 수를 줄임)와 mmc4-core(더 엄격한 필터링 및 축소)를 생성한다.
대체 배정 방법을 가능하게 하기 위해 문서 내 유사도 행렬과 정합을 제공한다.

실험 결과

연구 질문

RQ1대규모 인터리브된 이미지+텍스트 데이터가 비인터리브드 이미지-캡션 데이터와 비교해 다중모달 맥락 학습을 향상시킬 수 있는가?
RQ2텍스트와 인터리브된 이미지가 문서 내 문장과 얼마나 잘 정렬되는가, 그리고 이 정렬의 품질이 주제에 따라 어떤가?
RQ3필터링(프라이버시, NSFW, 얼굴) 및 문서/이미지 통계의 효과와 트레이드오프가 다운스트림 모델 학습에 미치는 영향은 무엇인가?
RQ4mmc4-ff 및 mmc4-core와 같은 하위집합이 개발자에게 사용 가능하고 프라이버시를 고려한 대안을 제공하는가?

주요 결과

MMC4는 101.2M 문서와 571M 이미지가 43B 토큰에 걸쳐 인터리브되어 있다.
두 가지 주된 하위집합이 공개된다: 얼굴 수를 줄인 mmc4-ff와 더 엄격한 필터링의 mmc4-core.
수동 샘플링에 따르면 이미지의 88%가 문서와 주제적으로 관련되고 80%가 배정된 문장에 잘 정렬된다.
제로샷 CLIP ViT-L/14를 이용한 문서 내 이미지-텍스트 정합이 일부 미세조정된 기준선보다 정합 벤치마크에서 우수하다.
선형 할당은 문장들에 더 균등하게 이미지를 분배해 평균적으로 이미지가 포함된 문장의 비율을 22%(최대 할당)에서 34%(선형 할당)로 증가시킨다.
임의 표본 200개의 mmc4 문서(836 이미지)에서 주제적으로 관련된 이미지는 87.7%, 문장에 정렬된 이미지는 80.4%; 얼굴은 28.3%, 워터마크 1.6%, 로고 3.9%, 광고 3.2%, 중복 0.7%이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.