Skip to main content
QUICK REVIEW

[論文レビュー] To understand deep learning we need to understand kernel learning

Mikhail Belkin, Siyuan Ma|arXiv (Cornell University)|Feb 5, 2018
Face and Expression Recognition参考文献 28被引用数 110
ひとこと要約

本論文は、過剰適合(overfitted)および内挿(interpolated)カーネル手法が現実データと合成データの両方でよく一般化することを示し、ディープニューラルネットワークとの類似点を指摘する一方、従来の一般化境界はこの挙動を説明できないことを示す。

ABSTRACT

Generalization performance of classifiers in deep learning has recently become a subject of intense study. Deep models, typically over-parametrized, tend to fit the training data exactly. Despite this "overfitting", they perform well on test data, a phenomenon not yet fully understood. The first point of our paper is that strong performance of overfitted classifiers is not a unique feature of deep learning. Using six real-world and two synthetic datasets, we establish experimentally that kernel machines trained to have zero classification or near zero regression error perform very well on test data, even when the labels are corrupted with a high level of noise. We proceed to give a lower bound on the norm of zero loss solutions for smooth kernels, showing that they increase nearly exponentially with data size. We point out that this is difficult to reconcile with the existing generalization bounds. Moreover, none of the bounds produce non-trivial results for interpolating solutions. Second, we show experimentally that (non-smooth) Laplacian kernels easily fit random labels, a finding that parallels results for ReLU neural networks. In contrast, fitting noisy data requires many more epochs for smooth Gaussian kernels. Similar performance of overfitted Laplacian and Gaussian classifiers on test, suggests that generalization is tied to the properties of the kernel function rather than the optimization process. Certain key phenomena of deep learning are manifested similarly in kernel methods in the modern "overfitted" regime. The combination of the experimental and theoretical results presented in this paper indicates a need for new theoretical ideas for understanding properties of classical kernel methods. We argue that progress on understanding deep learning will be difficult until more tractable "shallow" kernel methods are better understood.

研究の動機と目的

  • 過剰適合/内挿カーネル分類器が多様なデータセットで良く一般化できることを実証する。
  • 非平滑なカーネル(Laplacian)がノイズラベルを適合できる一方、Gaussianカーネルは適合しにくいがテスト性能は類似する、という点を示す。
  • 非零のラベルノイズ下で interpolating 解の RKHS ノルムがデータサイズと共に急速に増大する理論的下界を提供する。
  • 現在のカーネル/一般化境界が interpolated kernel の挙動を捉えられず、新たな理論が必要であると主張する。
  • カーネル構造と一般化の関係が、最適化ダイナミクスとは独立に存在することを強調する。

提案手法

  • RKHS におけるカーネル機械を、Gaussian および Laplacian カーネルを用いた無限次元での線形回帰として用いる。
  • Representer Theorem によって interpolating 解を構成し、K alpha = y (Eq. 2) を解く。
  • 複数のデータセットにわたって過剰適合(分類誤差ゼロ)と内挿(回帰損失ゼロ)の解を比較する。
  • Zero classification error に到達するための加速カーネル学習法として EigenPro-SGD を用いる。
  • 非零ラベルノイズの下で t-overfitting の場合、 RKHS ノルムがデータサイズとほぼ指数関数的に増大するという下界を理論的に導く。

実験結果

リサーチクエスチョン

  • RQ1過剰適合/内挿カーネル手法は現実世界および合成データセットで良く一般化するのか?
  • RQ2滑らかな(Gaussian)と非滑らかな(Laplacian)カーネルは、ノイズ付きラベルやランダムラベルの適合とテスト性能においてどう異なるのか?
  • RQ3なぜ既存の一般化境界は interpolated kernel の性能を説明できず、どのような理論がそれをより適切に説明できるのか?

主な発見

  • Interpolation のカーネル分類器は、高いラベルノイズがあっても六つの実データセットと二つの合成データセットでほぼ最適なテスト性能を達成する。
  • 早期停止による正則化は、これらの interpolated 分類器に対しては最大でも小さな改善しかもたらさない。
  • 非滑らかな Laplacian カーネルは random labels を容易に適合できることがあり、ReLU ネットワークでの観測と一致する;滑らかな Gaussian カーネルはノイズデータへ適合するのにより多くのエポックを要する。
  • 滑らかなカーネルの過剰適合解の RKHS ノルムはデータサイズと共にほぼ指数関数的に増大し、ノルムで多項的に依存する従来の境界とは乖離する。
  • ラベルノイズが追加されても、 interpolated kernel classifier の実証的テスト性能は堅牢であり、Laplacian と Gaussian の間で類似している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。