[论文解读] Universal Approximation Theorems for Differentiable Geometric Deep Learning
本文建立了在黎曼流形上可微几何深度学习(GDL)模型的通用逼近定理,证明前馈GDL架构能够一致逼近任意紧致流形之间的连续函数。关键贡献在于:给出了逼近可能的输入集合最大直径的曲率依赖界,以及深度界,并提出一种数据相关的条件,可避免维度灾难——该条件对所有现实世界中的有限数据集和光滑目标函数均成立。
This paper addresses the growing need to process non-Euclidean data, by introducing a geometric deep learning (GDL) framework for building universal feedforward-type models compatible with differentiable manifold geometries. We show that our GDL models can approximate any continuous target function uniformly on compact sets of a controlled maximum diameter. We obtain curvature-dependent lower-bounds on this maximum diameter and upper-bounds on the depth of our approximating GDL models. Conversely, we find that there is always a continuous function between any two non-degenerate compact manifolds that any "locally-defined" GDL model cannot uniformly approximate. Our last main result identifies data-dependent conditions guaranteeing that the GDL model implementing our approximation breaks "the curse of dimensionality." We find that any "real-world" (i.e. finite) dataset always satisfies our condition and, conversely, any dataset satisfies our requirement if the target function is smooth. As applications, we confirm the universal approximation capabilities of the following GDL models: Ganea et al. (2018)'s hyperbolic feedforward networks, the architecture implementing Krishnan et al. (2015)'s deep Kalman-Filter, and deep softmax classifiers. We build universal extensions/variants of: the SPD-matrix regressor of Meyer et al. (2011), and Fletcher (2003)'s Procrustean regressor. In the Euclidean setting, our results imply a quantitative version of Kidger and Lyons (2020)'s approximation theorem and a data-dependent version of Yarotsky and Zhevnerchuk (2019)'s uncursed approximation rates.
研究动机与目标
- 开发一个通用、自包含的框架,用于在任意黎曼流形上实现可微几何深度学习(GDL)的通用逼近。
- 解决现有GDL模型依赖全局欧氏线性化所带来的局限性,该方法在非欧几里得几何中失效。
- 提供与流形曲率和输入集合直径相关的逼近误差与模型深度的定量界。
- 识别在何种数据相关条件下,GDL模型可避免维度灾难。
- 在既有的GDL模型上验证该框架,包括双曲网络、深度卡尔曼滤波器和对称正定矩阵回归器。
提出的方法
- 提出一种局部提升框架,其中特征映射 φ 和读出映射 ρ 在局部图册中变化,以局部微分同胚替代全局线性化。
- 采用局部映射的复合:φα : Uα → Rp,g : Rp → Rm(一个通用的欧氏神经网络),以及 ρζ : Rm → Y,构成 f̂ = ρζ⁻¹ ∘ g ∘ φα。
- 应用同伦理论证明:仅在目标函数与常值函数同伦时,局部定义的GDL模型才能逼近该函数,从而建立拓扑障碍。
- 推导出在紧致输入集合上实现一致逼近的、与曲率相关的最大直径下界。
- 引入一种数据效率条件,确保逼近速率与维度无关,已证明该条件对所有有限现实世界数据集和所有光滑目标函数均成立。
- 运用代数拓扑工具,包括奇异同调与Hurewicz同构,证明非零伦映射不可逼近。
实验结果
研究问题
- RQ1基于局部欧氏网络构建的GDL模型能否在任意紧致黎曼流形之间一致逼近任意连续函数?
- RQ2在何种曲率依赖约束下,输入集合的大小(直径)决定了通用逼近的可行性?
- RQ3为何局部定义的GDL模型无法逼近某些连续函数?其失败的拓扑原因是什么?
- RQ4在何种数据相关条件下,GDL模型可避免逼近中的维度灾难?
- RQ5所提出的框架能否验证现有GDL架构(如双曲网络和深度卡尔曼滤波器)的通用逼近能力?
主要发现
- 任何从非退化紧致流形 X → Y 的连续函数 f,若其不与常值函数同伦,则无法被任何局部定义的GDL模型一致逼近。
- 实现通用逼近的紧致输入集合 X 的最大直径,其下界由曲率依赖表达式决定,从而对逼近施加了几何约束。
- 逼近用GDL模型的深度由目标逼近误差和输入流形曲率的函数有上界。
- 所有有限现实世界数据集均满足数据效率条件,该条件可保证逼近速率与维度无关,即使目标函数非光滑亦成立。
- 对于光滑目标函数,每个数据集均满足数据效率条件,意味着在此类设置下,深度学习模型可避免维度灾难。
- 该框架证实了双曲前馈网络、深度卡尔曼滤波器和深度Softmax分类器的通用逼近能力,并为SPD矩阵和Procrustean回归器提供了通用扩展。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。