Skip to main content
QUICK REVIEW

[論文レビュー] Why Do Deep Residual Networks Generalize Better than Deep Feedforward Networks? -- A Neural Tangent Kernel Perspective

Kaixuan Huang, Yuqing Wang|arXiv (Cornell University)|Feb 14, 2020
Domain Adaptation and Few-Shot Learning参考文献 39被引用数 33
ひとこと要約

この論文は、ディープな ResNet がディープな FFN よりも一般化性能が高い理由を、無限幅極限でのニューラル・タンジェント・カーネル(NTK)を比較し、FFN の NTK が深さとともに退化する一方、ResNet の NTK は学習能力を保持することを示す。

ABSTRACT

Deep residual networks (ResNets) have demonstrated better generalization performance than deep feedforward networks (FFNets). However, the theory behind such a phenomenon is still largely unknown. This paper studies this fundamental problem in deep learning from a so-called "neural tangent kernel" perspective. Specifically, we first show that under proper conditions, as the width goes to infinity, training deep ResNets can be viewed as learning reproducing kernel functions with some kernel function. We then compare the kernel of deep ResNets with that of deep FFNets and discover that the class of functions induced by the kernel of FFNets is asymptotically not learnable, as the depth goes to infinity. In contrast, the class of functions induced by the kernel of ResNets does not exhibit such degeneracy. Our discovery partially justifies the advantages of deep ResNets over deep FFNets in generalization abilities. Numerical results are provided to support our claim.

研究の動機と目的

  • 深い ResNets と FFNs の一般化ギャップの理解を動機づける。
  • エンドツーエンドで訓練される深いネットワークの NTK ベース解析を開発する。
  • 広い/深い領域での深い FFN と ResNet の極限 NTK を比較する。
  • ネットワークの幅/深さと NTK 振る舞いを結びつける非漸近的境界を提供する。

提案手法

  • ランダムなガウス初期化を用いて深い FFN と ResNet をモデル化する。
  • 無限幅極限において両アーキテクチャの GP カーネルと NTK を導出する。
  • 深さが増加するにつれて極限挙動を調べるため NTK を正規化する。
  • FFN NTK が深さとともに退化することを証明または概略証明し、ResNet NTK が学習可能性を維持することを示す。
  • 有限幅ネットワークとその極限 NTK を結ぶ非漸近的境界を提供する。
  • MNIST と CIFAR-10 でのカーネル回帰実験を用いて理論的主張を裏づける。

実験結果

リサーチクエスチョン

  • RQ1深い FFN と深い ResNets は深さが無限大に近づくと異なる極限 NTK を生じさせるか?
  • RQ2FFN の極限 NTK によって誘導される関数クラスは学習可能か、これが ResNet の極限 NTK によって避けられるか?
  • RQ3幅と深さがどのように相互作用して NTK と一般化性を両アーキテクチャで決定するか?
  • RQ4NTKベースのカーネルを用いたカーネル回帰で、FFNとResNet間の観測される一般化の差を再現できるか?

主な発見

  • FFN NTK は情報量の少ない極限カーネルへ収束し、未知データへの一般化が劣る。
  • ResNet NTK は学習可能な極限カーネルへ収束し、深さが増しても入力間の識別力を維持する。
  • 適切なスケーリングを持つ ResNets では極限 NTK が深さ不変になり得て、非常に深いモデルでの持続的な一般化を説明するのに役立つ。
  • 指定された幅条件の下で有限幅ネットワークがその極限 NTK を近似する非漸近的境界を示す。
  • MNIST と CIFAR-10 の数値実験は、FFN ベースのカーネル回帰器が深さとともに劣化する一方、ResNet ベースの回帰器は深さを超えて精度を維持することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。