Skip to main content
QUICK REVIEW

[论文解读] Beyond neural scaling laws: beating power law scaling via data pruning

Ben Sorscher, Robert Geirhos|arXiv (Cornell University)|Jun 29, 2022
Anomaly Detection Techniques and Applications被引用 85
一句话总结

本文给出理论与实验证据,表明数据修剪可以超越数据集规模的传统幂律误差扩展,在Pareto-最优修剪下实现近似指数级的增益,并引入一个自监督修剪度量,在大规模下可与监督度量媲美。

ABSTRACT

Widely observed neural scaling laws, in which error falls off as a power of the training set size, model size, or both, have driven substantial performance improvements in deep learning. However, these improvements through scaling alone require considerable costs in compute and energy. Here we focus on the scaling of error with dataset size and show how in theory we can break beyond power law scaling and potentially even reduce it to exponential scaling instead if we have access to a high-quality data pruning metric that ranks the order in which training examples should be discarded to achieve any pruned dataset size. We then test this improved scaling prediction with pruned dataset size empirically, and indeed observe better than power law scaling in practice on ResNets trained on CIFAR-10, SVHN, and ImageNet. Next, given the importance of finding high-quality pruning metrics, we perform the first large-scale benchmarking study of ten different data pruning metrics on ImageNet. We find most existing high performing metrics scale poorly to ImageNet, while the best are computationally intensive and require labels for every image. We therefore developed a new simple, cheap and scalable self-supervised pruning metric that demonstrates comparable performance to the best supervised metrics. Overall, our work suggests that the discovery of good data-pruning metrics may provide a viable path forward to substantially improved neural scaling laws, thereby reducing the resource costs of modern deep learning.

研究动机与目标

  • 激发并分析是否通过修剪训练数据可以超过标准的误差相对于数据集规模的幂律扩展。
  • 在师生感知器设置中为数据修剪建立理论框架,以预测缩放行为。
  • 在真实模型和数据集上,实证验证修剪后数据集规模的近似指数级缩放。
  • 在 ImageNet 规模基准测试现有数据修剪度量,以识别优点/局限。
  • 提出一个自监督修剪度量,在没有标签的情况下接近监督度量的性能。

提出的方法

  • 提出一个基于边际的修剪算法,其中探针模型按边际大小对样本进行排序,修剪子集训练至完成。
  • 在高维极限下使用基于复制方法的分析推导 ε(α_tot,f,θ) 并预测最优修剪模式。
  • 推导预测:(a) 最优修剪策略取决于初始数据量;(b) Pareto-最优修剪可在修剪后的数据量上产生指数级缩放。
  • 在 CIFAR-10、SVHN、ImageNet 以及 CIFAR-10 迁移任务上,对 ResNet 和 ViT 进行大规模实验以检验理论。
  • 在 ImageNet 上基准测试八种监督修剪度量,并基于 SSL 表征中的聚类引入自监督原型。
  • 提出一个自监督修剪度量(原型到聚类质心的距离),并将其性能与监督度量进行比较。

实验结果

研究问题

  • RQ1数据修剪是否能够超越测试误差随数据集规模的幂律扩展?
  • RQ2在不同初始数据量下,哪些修剪策略(保留哪些样本)能最大化测试性能?
  • RQ3Pareto-最优修剪策略是否在实践中实现修剪后数据量的指数级扩展?
  • RQ4哪些修剪度量可扩展到 ImageNet,以及自监督方法如何在无标签的情况下表现?
  • RQ5对基础模型进行预训练或微调数据的修剪是否可以在下游任务中保持或提升性能?

主要发现

  • 解析理论预测两种规律:数据充足时保留难样本;数据稀缺时保留易样本;且 Pareto-最优修剪可在修剪规模上实现指数级扩展。
  • 在 SVHN、CIFAR-10、ImageNet 上的 ResNet,以及 CIFAR-10 的 ViT,实证观察到修剪数据集规模的近似指数级扩展。
  • 大多数现有修剪度量在 ImageNet 上扩展性较差,最好的需要大量计算或标签;一个新的自监督原型度量在许多场景下可与监督度量相匹配。
  • 在 SSL 表征中的聚类实现自监督修剪,在不需要标签的情况下,达到与强监督度量相当的性能。
  • 对预训练数据进行修剪(上游)在对下游任务进行微调时可以达到甚至超过完整预训练的性能,表明通过数据修剪实现有效迁移学习。
  • 一个大规模的 ImageNet 基准测试展示了显著的修剪益处,并为各方法的度量性能提供信息。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。