Skip to main content
QUICK REVIEW

[论文解读] Non-Euclidean Universal Approximation

Anastasis Kratsios, Ievgen Bilokopytov|arXiv (Cornell University)|Jun 3, 2020
Morphological variations and asymmetry被引用 6
一句话总结

本文確立了在修改神經網絡的輸入與輸出層(如使用非歐幾里得空間或二值輸出)時,其通用近似能力得以保持的一般條件。本文證明,當深度網絡(包括卷積神經網絡與雙曲網絡)適配至卡坦-哈馬達流形或用於確定性二值分類時,其仍為通用近似器,並顯示隨機化大部分層仍能以機率一產生通用函數族。

ABSTRACT

Modifications to a neural network's input and output layers are often required to accommodate the specificities of most practical learning tasks. However, the impact of such changes on architecture's approximation capabilities is largely not understood. We present general conditions describing feature and readout maps that preserve an architecture's ability to approximate any continuous functions uniformly on compacts. As an application, we show that if an architecture is capable of universal approximation, then modifying its final layer to produce binary values creates a new architecture capable of deterministically approximating any classifier. In particular, we obtain guarantees for deep CNNs and deep feed-forward networks. Our results also have consequences within the scope of geometric deep learning. Specifically, when the input and output spaces are Cartan-Hadamard manifolds, we obtain geometrically meaningful feature and readout maps satisfying our criteria. Consequently, commonly used non-Euclidean regression models between spaces of symmetric positive definite matrices are extended to universal DNNs. The same result allows us to show that the hyperbolic feed-forward networks, used for hierarchical learning, are universal. Our result is also used to show that the common practice of randomizing all but the last two layers of a DNN produces a universal family of functions with probability one. We also provide conditions on a DNN's first (resp. last) few layer's connections and activation function which guarantee that these layers can have a width equal to the input (resp. output) space's dimension while not negatively affecting the architecture's approximation capabilities.

研究动机与目标

  • 理解對輸入與輸出層的修改如何影響神經網絡的通用近似能力。
  • 識別在深度架構中保持通用近似的特徵與讀取映射的一般條件。
  • 將通用近似保證擴展至非歐幾里得空間,如對稱正定矩陣與雙曲空間。
  • 分析如二值輸出層與早期/晚期層隨機化等架構修改對近似能力的影響。
  • 為常見的深度學習實踐(如僅保留最後兩層不隨機化)提供理論依據。

提出的方法

  • 推導出在深度神經網絡中保持通用近似的特徵與讀取映射的一般條件。
  • 將這些條件應用於證明:將最後一層修改為產生二值輸出,可保持分類器的通用近似能力。
  • 運用卡坦-哈馬達流形上的幾何分析,構造有效的非歐幾里得特徵與讀取映射。
  • 展示常見的對稱正定矩陣上的非歐幾里得回歸模型可擴展為通用深度網絡。
  • 將該框架應用於雙曲前饋網絡,證明其通用性。
  • 確立深度神經網絡中除最後兩層外所有層均隨機化時,可產生機率一的通用函數族。

实验结果

研究问题

  • RQ1在何種條件下,對輸入與輸出層的修改能保持深度神經網絡的通用近似能力?
  • RQ2具有非歐幾里得輸入或輸出空間(如對稱正定矩陣或雙曲空間)的深度網絡是否仍能實現通用近似?
  • RQ3對深度網絡除最後兩層外的所有層進行隨機化,是否能保持其通用近似能力?
  • RQ4對早期或晚期層的哪些架構約束可使其寬度等於輸入/輸出維度而不損害近似能力?
  • RQ5如何為卡坦-哈馬達流形構造具有幾何意義的特徵與讀取映射,以確保通用近似?

主要发现

  • 將通用架構的最後一層修改為產生二值輸出,可產生一個新架構,能確定性地近似任意分類器。
  • 當適配至非歐幾里得空間(如對稱正定矩陣)時,深度卷積與前饋網絡仍為通用近似器。
  • 在所提出的框架下,雙曲前饋網絡被證明為通用近似器。
  • 對深度神經網絡除最後兩層外的所有層進行隨機化,可產生機率一的通用函數族。
  • 只要激活函數與連接模式滿足推導出的條件,深度網絡的前幾層或最後幾層寬度可等於輸入或輸出空間維度,而不損害通用近似能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。