Skip to main content
QUICK REVIEW

[论文解读] Learning in High Dimension Always Amounts to Extrapolation

Randall Balestriero, Jerome Pesenti|arXiv (Cornell University)|Oct 18, 2021
Sparse and Compressive Sensing Techniques参考文献 23被引用 26
一句话总结

论文认为在高维空间(d > 100)中新样本几乎肯定落在训练数据的凸包之外,这意味着插值极其罕见,外推占主导,从而挑战传统的插值与泛化之间的联系。

ABSTRACT

The notion of interpolation and extrapolation is fundamental in various fields from deep learning to function approximation. Interpolation occurs for a sample $x$ whenever this sample falls inside or on the boundary of the given dataset's convex hull. Extrapolation occurs when $x$ falls outside of that convex hull. One fundamental (mis)conception is that state-of-the-art algorithms work so well because of their ability to correctly interpolate training data. A second (mis)conception is that interpolation happens throughout tasks and datasets, in fact, many intuitions and theories rely on that assumption. We empirically and theoretically argue against those two points and demonstrate that on any high-dimensional ($>$100) dataset, interpolation almost surely never happens. Those results challenge the validity of our current interpolation/extrapolation definition as an indicator of generalization performances.

研究动机与目标

  • 在理论上和经验上证明在高维空间(>100)几乎不会发生插值。
  • 显示当前模型无论数据流形的内在维度如何,均在外推 regime 内工作。
  • 研究数据集大小、环境维度/凸包维度以及嵌入对插值概率的影响。
  • 考察插值/外推与现代机器学习泛化之间关系的含义。
  • 就高维数据上实现插值拟合的几何定义提供指南。

提出的方法

  • 理论结果(定理1)表明,当从一个 d 维球体中独立同分布地取样时,新的样本落在凸包中的概率趋向于0,除非 N 以指数方式随 d 增长。
  • 经验实验在不同环境和凸包维度下的合成数据以及在真实数据集(MNIST、CIFAR、ImageNet)上,进行不同维度约简和嵌入下的插值概率评估。
  • 实验通过改变内在流形维度、凸包维度 d* 以及观测维度,研究插值概率随维度(和样本量)的衰减。
  • 分析从嵌入空间和降维角度测试在潜在表示或常见降维后,插值是否仍然存在。
  • 将理论结果与现有结果(如 Valtr 的公式、Buchta 的极限、Kabluchko & Zaporozhets 的非渐近结果)进行综合,以表征高维中的插值/外推概率。

实验结果

研究问题

  • RQ1在现实数据规模下,新的样本的插值概率在高维中是否会消失?
  • RQ2内在维度、环境维度和凸包(包含数据的最小仿射子空间)如何影响插值可能性?
  • RQ3常见的嵌入和降维技术是否能够保留插值/外推的信息?
  • RQ4高维插值/外推的性质对模型泛化有何影响?
  • RQ5已知的理论结果是否可以扩展到现实世界的数据分布和嵌入?

主要发现

  • 插值概率随维度呈指数衰减,若要保持恒定的插值概率,需要指数级的样本量。
  • 包含数据的最小仿射子空间(凸包维度 d*)对插值概率的影响大于内在流形维度;在固定 d* 的情况下增加环境维度也无法帮助维持插值。
  • 在真实数据集(MNIST、CIFAR、ImageNet)及各种嵌入下,随着维度增加,测试样本相对于训练数据处于外推区域,表明外推在实际中占主导。
  • 降维方法和许多嵌入往往会抹去插值/外推的区别,可能误导对数据几何的解释。
  • Johnson–Lindenstrauss 式的降维在 N 仅线性增长与 d 同阶时无法保持插值概率,强化了在实际数据规模下高维插值的可能性不大。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。