[论文解读] Scaling MLPs: A Tale of Inductive Bias
本文研究了将基于 MLP 的视觉模型进行放大对性能的影响,表明缺乏先验归纳偏置可以被数据和计算能力所弥补,在扩展规模时,MLP 的行为与现代架构相似,但在数据增强和 SGD 偏置效应方面存在差异。
In this work we revisit the most fundamental building block in deep learning, the multi-layer perceptron (MLP), and study the limits of its performance on vision tasks. Empirical insights into MLPs are important for multiple reasons. (1) Given the recent narrative "less inductive bias is better", popularized due to transformers eclipsing convolutional models, it is natural to explore the limits of this hypothesis. To that end, MLPs offer an ideal test bed, as they lack any vision-specific inductive bias. (2) MLPs have almost exclusively been the main protagonist in the deep learning theory literature due to their mathematical simplicity, serving as a proxy to explain empirical phenomena observed for more complex architectures. Surprisingly, experimental datapoints for MLPs are very difficult to find in the literature, especially when coupled with large pre-training protocols. This discrepancy between practice and theory is worrying: Do MLPs reflect the empirical advances exhibited by practical models? Or do theorists need to rethink the role of MLPs as a proxy? We provide insights into both these aspects. We show that the performance of MLPs drastically improves with scale (95% on CIFAR10, 82% on CIFAR100, 58% on ImageNet ReaL), highlighting that lack of inductive bias can indeed be compensated. We observe that MLPs mimic the behaviour of their modern counterparts faithfully, with some components in the learning setting however exhibiting stronger or unexpected behaviours. Due to their inherent computational efficiency, large pre-training experiments become more accessible for academic researchers. All of our experiments were run on a single GPU.
研究动机与目标
- 评估在不具备视觉特定归纳偏置的情况下对视觉任务进行放大后 MLP 的表现。
- 在大规模预训练和迁移学习方面,将 MLP 与 CNNs/transformers 进行比较。
- 量化数据增强和 SGD 隐式偏置对 MLP 性能的影响。
- 刻画 MLP 的放大规律以及参数与数据之间的最优计算资源分配。
提出的方法
- 研究标准版和反向瓶颈 MLP 变体,包含残差/瓶颈配置。
- 在 CIFAR-10/100、TinyImageNet、STL10 及 ImageNet 变体上从零开始训练,使用数据增强和 LION 优化器。
- 在 ImageNet21k 上对 inverted bottleneck MLP 进行预训练,并在 CIFAR100、CIFAR10 及 ImageNet-ReaL 上通过微调和测试时数据增强评估迁移。
- 通过改变计算量、数据集规模和参数量来分析放大规律,并对下游性能拟合幂律关系。
- 在不同规模下评估批量大小对预训练和下游任务的作用。
实验结果
研究问题
- RQ1在未使用常规归纳偏置的情况下,放大后的 MLP 能否达到具有竞争力的视觉性能?
- RQ2数据增强、SGD 偏置和批量大小如何影响大规模下 MLP 的训练与泛化?
- RQ3MLP 是否呈现与 CNN/Transformers 相似的性能放大规律?若不同,差异在哪里?
- RQ4对于 MLP,模型规模与数据集规模之间的最优计算资源分配是多少?
- RQ5大规模 MLP 学得的特征在下游视觉任务中的迁移性有多强?
主要发现
- MLPs 随规模增长而提升,在大量计算和数据下实现显著的下游准确度(例如,在 CIFAR-10 上约 95%、CIFAR-100 上约 82%、ImageNet-ReaL 上约 58%)。
- 通过数据增强进行正则化对于 MLP 至关重要,尤其在大规模时可以显著提升性能。
- 较大的 SGD 批量大小出人意料地提升了 MLP 的泛化,与 CNN/Transformers 的趋势相反。
- MLP 的放大行为与现代模型类似,计算量与误差之间遵循幂律关系,尽管最优计算资源分配偏向更多数据(N)而非参数(P)。
- 在 ImageNet21k 上进行预训练后再进行迁移学习显示 MLP 的特征具强迁移能力,测试时的数据增强和 ReaL 标签提升了性能(尤其是在 CIFAR 数据集上)。
- MLP 的最优计算资源分配随 C 的比例为 P* ∝ C^0.35,N* ∝ C^0.65,表明在固定计算量下更加偏向数据量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。