[论文解读] Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision
tldr: 本文通过自监督学习在数十亿张未筛选的互联网图片上训练一个100亿参数的视觉模型,与监督学习或基于 ImageNet 的预训练相比,在鲁棒性、公平性和更广泛的语义捕捉方面取得提升。
Discriminative self-supervised learning allows training models on any random group of internet images, and possibly recover salient information that helps differentiate between the images. Applied to ImageNet, this leads to object centric features that perform on par with supervised features on most object-centric downstream tasks. In this work, we question if using this ability, we can learn any salient and more representative information present in diverse unbounded set of images from across the globe. To do so, we train models on billions of random images without any data pre-processing or prior assumptions about what we want the model to learn. We scale our model size to dense 10 billion parameters to avoid underfitting on a large data size. We extensively study and validate our model performance on over 50 benchmarks including fairness, robustness to distribution shift, geographical diversity, fine grained recognition, image copy detection and many image classification datasets. The resulting model, not only captures well semantic information, it also captures information about artistic style and learns salient information such as geolocations and multilingual word embeddings based on visual content only. More importantly, we discover that such model is more robust, more fair, less harmful and less biased than supervised models or models trained on object centric datasets such as ImageNet.
研究动机与目标
- 研究在全球范围内多样化、未筛选图片数据上训练的自监督视觉模型所学到的特性。
- 评估规模(高达10B参数)如何影响鲁棒性,以及对域外任务的泛化能力。
- 在下游任务中量化性别、肤色、地理位置和年龄等维度的公平性与偏差。
- 探究此类模型是否仅靠视觉信号就能编码非面向对象相关信息,如地理位置和多语言内容。
提出的方法
- 在1B张未筛选的 Instagram 图像上,使用 SwAV 自监督学习训练一个10B参数的 RegNet-Y 架构,且不进行数据预筛选。
- 在496块GPU上使用 Fully Sharded Data Parallel (FSDP) 以实现大模型训练,并应用动态激活检查点以管理内存。
- 采用 SwAV,16,000 个原型、温度0.1、10 次 Sinkhorn 迭代来学习原型分配。
- 在50+个基准上评估预训练模型,包括公平性、鲁棒性、地理多样性、细粒度识别和图像拷贝检测。
- 将 SEER(自监督、未筛选数据)与监督的 ImageNet 预训练和自监督的 ImageNet 预训练在多种下游任务中进行比较。
实验结果
研究问题
- RQ1当自监督视觉模型在全球范围内的数十亿张未筛选图片上训练时,会出现哪些显著的信息与变异因素?
- RQ2在多样化、未筛选数据上、结合大规模模型容量的训练,是否比面向对象的监督数据集获得更高的鲁棒性、公平性和偏差降低?
- RQ3此类模型在多大程度上仅凭视觉数据就能够捕捉非面向对象的信号(例如地理位置、艺术风格、多语言线索)?
主要发现
- 在随机互联网图片上的自监督预训练得到的模型在公平性、偏见程度和有害性方面优于监督或对象中心的预训练模型。
- 更大规模的模型(10B 参数)在嵌入中的性别和肤色差异方面表现出较低的差异,并且随着模型规模的增加,公平性提高。
- 该模型能够利用数据集的多样性来训练更鲁棒的特征,并在50+个基准上获得更好的分布外泛化。
- SEER 基于纯视觉内容捕捉非传统信号,如地理位置和多语言词嵌嵒。
- 训练数据的地理和人口统计多样性转化为改进的地理公平性和区域对象识别性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。