[论文解读] RedCaps: web-curated image-text data created by the people, for the people
RedCaps 是一个来自 Reddit 的大规模图文数据集(12M 对),过滤极少并由 subreddit 驱动的策划,能够训练字幕生成模型和可迁移的视觉表征,超越一些先前的网络数据源。
Large datasets of paired images and text have become increasingly popular for learning generic representations for vision and vision-and-language tasks. Such datasets have been built by querying search engines or collecting HTML alt-text -- since web data is noisy, they require complex filtering pipelines to maintain quality. We explore alternate data sources to collect high quality data with minimal filtering. We introduce RedCaps -- a large-scale dataset of 12M image-text pairs collected from Reddit. Images and captions from Reddit depict and describe a wide variety of objects and scenes. We collect data from a manually curated set of subreddits, which give coarse image labels and allow us to steer the dataset composition without labeling individual instances. We show that captioning models trained on RedCaps produce rich and varied captions preferred by humans, and learn visual representations that transfer to many downstream tasks.
研究动机与目标
- 通过利用 Reddit 上的人类创作内容,选择高质量的图文数据源。
- 构建一个大型、易于扩展的图文数据集,具有来自 subreddit 主题的粗标签。
- 使视觉-语言模型能够生成丰富的描述并学习可转移的视觉表征。
- 评估从 RedCaps 学习的表征对多样下游任务的转移性。
提出的方法
- 从手动筛选的 350 个高图像发帖的子版块收集图像-文本对。
- 将图像发帖过滤到三个托管域并移除低点赞或 NSFW 内容;对字幕进行最小化清理。
- 在训练时使用 Reddit 子版块标记为前缀来反映数据集风格。
- 将 VirTex 改编为 VirTex-v2,使用更深的 Transformer、30k 词汇表,并在字幕前添加子版块标记前缀。
- 在 RedCaps 上训练并与 SBU 和 CC-3M 在零-shot、线性探针和下游任务转移性能进行比较。
- 开源训练代码和预训练检查点发布。
实验结果
研究问题
- RQ1是否可以通过选择如 Reddit 这样的以人为中心的平台并手动筛选子版块来从网络来源获得高质量的图文数据?
- RQ2基于 Reddit 的 RedCaps 学到的表征是否在下游视觉任务中的转移性优于从 SBU 或 CC-3M 学得的表征?
- RQ3RedCaps 是否能够支持具有多样化、社区驱动的字幕风格的高质量图像字幕?
- RQ4子版块条件化的字幕如何影响语言和视觉表征学习?
- RQ5在使用 Reddit 派生的图文数据构建视觉-语言模型时,哪些伦理考量和潜在偏见需要注意?
主要发现
- RedCaps 包含来自 350 个子版块的 12,011,111 对图像-文本对(2008–2020;过滤后最终数据集)。
- 在 RedCaps 上训练的字幕模型产生丰富且多样的字幕,人工更偏好于 RedCaps 的字幕而非 CC-3M 的字幕。
- RedCaps 训练的特征在十一组下游数据集上具有更好的零-shot 和线性探针表现,在大多数情况下优于 SBU 和 CC-3M 基线。
- 零-shot 和线性探针评估显示 RedCaps 在若干数据集上得分高于 SBU 和 CC-3M,在标准转移任务上也具有竞争力。
- 字幕评估显示在多数测试图像上,人工选择更偏好 RedCaps 生成的字幕,相较 CC-3M。
- RedCaps 比一些多语数据集的英文子集更大,且与 CC-12M 相当,同时仍对实验开放获取。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。