QUICK REVIEW

[논문 리뷰] LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs

Christoph Schuhmann, Richard Vencu|arXiv (Cornell University)|2021. 11. 03.

Multimodal Machine Learning Applications참고 문헌 11인용 수 367

한 줄 요약

논문은 LAION-400M을 제시합니다. 이는 CLIP으로 필터링된 4억 개의 이미지-텍스트 쌍과 임베딩, kNN 인덱스 및 도구를 공개하며, 대규모 다중 모달 모델 학습과 DALL-E 유사 시연을 가능하게 합니다.

ABSTRACT

Multi-modal language-vision models trained on hundreds of millions of image-text pairs (e.g. CLIP, DALL-E) gained a recent surge, showing remarkable capability to perform zero- or few-shot learning and transfer even in absence of per-sample labels on target image data. Despite this trend, to date there has been no publicly available datasets of sufficient scale for training such models from scratch. To address this issue, in a community effort we build and release for public LAION-400M, a dataset with CLIP-filtered 400 million image-text pairs, their CLIP embeddings and kNN indices that allow efficient similarity search.

연구 동기 및 목표

공개적으로 이용 가능하고 대규모의 이미지-텍스트 데이터세트가 필요하다는 동기를 설명하여 최첨단 다중 모달 모델의 학습에 per-sample 레이블 없이 사용한다.
Common Crawl 데이터로부터 LAION-400M을 구축하고 공개하는 종단 간 과정을 설명한다.
연구와 학습을 촉진하기 위한 도구와 벤치마크(임베딩, kNN 인덱스, 웹 데모)를 제공한다.
데이터세트의 활용가능성을 DALL-E 스타일의 학습 예시와 정성적 결과를 통해 시연한다.

제안 방법

페타바이트 규모의 Common Crawl 데이터를 분산 처리하여 이미지 URL과 캡션을 추출한다.
alt-text 길이, 이미지 크기, 중복 제거, CLIP 기반 코사인 유사도 임계값을 사용하는 필터링 파이프라인을 구성한다.
CLIP 기반 필터링을 통해 불법 콘텐츠를 제거하고 이미지/텍스트 임베딩을 계산한다.
웹데이터세트 형식으로 이미지를 크기 조정하고 메타데이터를 효율적으로 크롤링, 저장하기 위한 img2dataset 라이브러리를 개발한다.
빠른 유사도 검색을 가능하게 하는 CLIP 임베딩과 kNN 인덱스를 제공한다.
사전 계산된 임베딩과 인덱스를 활용한 이미지-텍스트 검색을 가능하게 하는 웹 데모를 제공한다.

실험 결과

연구 질문

RQ1공개적으로 출시된 4억 쌍의 대규모 이미지-텍스트 데이터세트가 다중 모달 모델의 학습에 경쟁력 있는 품질로 사용될 수 있는가?
RQ2대규모 규모에서 데이터 품질과 안전성을 보장하는 CLIP 기반 필터링은 어느 정도 효과적인가?
RQ3이러한 데이터세트를 효율적으로 연구하기 위해 필요한 도구와 데이터 표현(임베딩, kNN 인덱스)은 무엇인가?
RQ4LAION-400M의 하위 집합이 DALL-E 스타일의 텍스트-이미지 생성 학습을 지원하고 정성적 결과를 도출할 수 있는가?

주요 결과

지표	값
Number of unique samples	413M
Number with height or width ≥ 1024	26M
Number with height and width ≥ 1024	9.6M
Number with height and width ≥ 512	67M
Number with height or width ≥ 512	112M
Number with height and width ≥ 256	211M
Number with height or width ≥ 256	268M

LAION-400M은 4억 개의 이미지-텍스트 쌍, CLIP 임베딩 및 효율적인 유사도 검색을 위한 kNN 인덱스를 제공한다.
NSFW로 감지된 이미지가 1% 미만으로 나타나 필요 시 사용자 측 필터링이 가능하다.
웹 데모는 데이터세트에서 다양하고 의미적으로 관련된 이미지-텍스트 연상을 보여준다.
일부 7.2M 이미지로 1 epoch 학습한 DALL-E 스타일 모델은 빠른 수렴과 비교적 높은 품질의 샘플을 보인다.
LAION-400M의 하위 집합(예: 3M, 7.2M)은 텍스트-이미지 모델 학습에 사용되어 진행 상황과 일관된 출력을 보여준다.
데이터세트에는 다양한 해상도에서의 학습 하위 집합 생성을 가능하게 하는 이미지 크기 분포가 포함되어 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.