[论文解读] LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs
本论文提出 LAION-400M,是一个公开发布的包含 4 亿对经过 CLIP 过滤的图像-文本对的数据集,附带嵌入、kNN 索引和工具,能够进行大规模多模态模型训练,并有一个类似 DALL-E 的演示。
Multi-modal language-vision models trained on hundreds of millions of image-text pairs (e.g. CLIP, DALL-E) gained a recent surge, showing remarkable capability to perform zero- or few-shot learning and transfer even in absence of per-sample labels on target image data. Despite this trend, to date there has been no publicly available datasets of sufficient scale for training such models from scratch. To address this issue, in a community effort we build and release for public LAION-400M, a dataset with CLIP-filtered 400 million image-text pairs, their CLIP embeddings and kNN indices that allow efficient similarity search.
研究动机与目标
- 动机:说明无需逐样标注即可训练最先进的多模态模型,公开可获得的大规模图像-文本数据集的必要性。
- 描述从 Common Crawl 数据构建并发布 LAION-400M 的端到端流程。
- 提供工具和基准(嵌入、kNN 索引和一个网络演示)以促进研究和训练。
- 通过一个 DALL-E 风格的训练示例和定性结果来演示数据集的可用性。
提出的方法
- 对PB级规模的 Common Crawl 数据进行分布式处理,以提取图片 URL 和说明文字。
- 使用替代文本长度、图像大小、重复项移除以及基于 CLIP 的余弦相似度阈值的过滤管线。
- 基于 CLIP 的过滤,用于移除非法内容并计算图像/文本嵌入。
- 开发 img2dataset 库,以高效地抓取、调整大小并以 webdataset 格式存储图像及元数据。
- 提供 CLIP 嵌入和 kNN 索引,以实现快速相似性搜索。
- 网络演示,使用预计算的嵌入和索引实现图像-文本检索。
实验结果
研究问题
- RQ1公开发布的包含 400M 对的大规模图像-文本数据集是否能够支持以有竞争力的质量训练多模态模型?
- RQ2在大规模场景中,基于 CLIP 的过滤在确保数据质量和安全性方面有多有效?
- RQ3需要哪些工具和数据表示(嵌入、kNN 索引)以便对这类数据集进行高效研究?
- RQ4LAION-400M 的子集是否能够支持 DALL-E 风格的文本到图像生成训练并产出定性结果?
主要发现
| Metric | Value |
|---|---|
| Number of unique samples | 413M |
| Number with height or width ≥ 1024 | 26M |
| Number with height and width ≥ 1024 | 9.6M |
| Number with height and width ≥ 512 | 67M |
| Number with height or width ≥ 512 | 112M |
| Number with height and width ≥ 256 | 211M |
| Number with height or width ≥ 256 | 268M |
- LAION-400M 提供 4 亿对图像-文本对、它们的 CLIP 嵌入以及用于高效相似性搜索的 kNN 索引。
- 检测到 NSFW 的图像不到 1%,如有需要可由用户端进行过滤。
- 一个网络演示展示了数据集中多样且语义相关的图像-文本关联。
- 在子集(720 万张图像,训练 1 个 epoch)上训练的 DALL-E 风格模型显示了快速收敛和相对较高质量的样本。
- LAION-400M 的子集(如 3M、7.2M)可以用来训练文本到图像的模型,取得可观的进展和连贯的输出。
- 该数据集包含图片尺寸分布,可在不同分辨率下创建训练子集。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。