QUICK REVIEW

[論文レビュー] Implicit Bias of Gradient Descent on Linear Convolutional Networks

Suriya Gunasekar, Jason D. Lee|arXiv (Cornell University)|Jun 1, 2018

Stochastic Gradient Optimization Techniques参考文献 28被引用数 39

ひとこと要約

この論文は、深層線形畳み込みネットワークにおける勾配降下法が、ネットワークの深さに応じてスパarsityが強化される周波数ドメインにおける ℓ₂/Lブリッジ正則化に内在的なバイアスを誘導することを示している。一方、全結合線形ネットワークでは、深さにかかわらず ℓ₂ マックスマージン解に内在的なバイアスを示す。

ABSTRACT

We show that gradient descent on full-width linear convolutional networks of depth $L$ converges to a linear predictor related to the $\ell_{2/L}$ bridge penalty in the frequency domain. This is in contrast to linearly fully connected networks, where gradient descent converges to the hard margin linear support vector machine solution, regardless of depth.

研究の動機と目的

異なるアーキテクチャを有する過パrameter化線形モデルにおける勾配降下法の内在的バイアスを理解すること。
パラメータ化（全結合対比畳み込み）が線形モデルにおける最適化のインダクティブバイアスに与える影響を調査すること。
深層線形畳み込みネットワークにおける勾配降下法が誘導する内在的正則化を特徴づけること。
線形分類の文脈において、線形畳み込みネットワークと全結合ネットワークの内在的バイアスを比較すること。
ネットワークの深さが畳み込みアーキテクチャにおける勾配降下法の内在的バイアスをどのように形作るかを分析すること。

提案手法

複数のフルワイド畳み込みと最終的な全結合層からなる線形畳み込みネットワークを定式化する。
学習された線形予測子のフーリエ変換を用いて内在的バイアスを分析し、‖β̂‖₂/L 正則化を最小化する解への収束を示す。
周波数ドメイン解析を用いて、畳み込みネットワークにおける勾配降下法が誘導する内在的正則化を特徴づける。
深さ L の線形畳み込みネットワークにおける勾配降下法が、周波数ドメインにおける ℓ₂/L 正則化最適化問題の定常点に収束することを証明する。
異なるパラメータ化のもとで同じ最適化問題を分析することで、畳み込みネットワークと全結合ネットワークの内在的バイアスを比較する。
十分な過パラメータ化と勾配降下法によるグローバル最小値への収束を仮定し、収束速度ではなく収束方向に注目する。

実験結果

リサーチクエスチョン

RQ1同じモデル容量を持つ全結合ネットワークと線形畳み込みネットワークにおいて、勾配降下法の内在的バイアスはどのように異なるか？
RQ2深さ L の深層線形畳み込みネットワークにおける勾配降下法が誘導する内在的正則化は何か？
RQ3線形畳み込みネットワークの深さ L が勾配降下法の内在的バイアスに与える影響は何か？
RQ4線形畳み込みネットワークにおける勾配降下法は、周波数ドメインでスパースな解を優遇するか？
RQ5線形畳み込みネットワークにおける勾配降下法の内在的バイアスは、プライマル空間におけるマックスマージン解と比べてどう異なるか？

主な発見

深さ L の線形畳み込みネットワークにおける勾配降下法は、周波数ドメインにおける ℓ₂/L ブリッジ正則化を最小化する解に内在的なバイアスを誘導する。
ネットワークの深さ L が増加するにつれて、この内在的バイアスはよりスパース性を促進し、L が増大するに従い正則化強度が ℓ₂ から ℓ₁ へと減少する。
一方、任意の深さを持つ全結合線形ネットワークでは、深さにかかわらず ℓ₂ マックスマージン解に収束する。
両アーキテクチャとも普遍的な線形予測子であるにもかかわらず、線形畳み込みネットワークにおける勾配降下法の内在的バイアスは、全結合ネットワークとは本質的に異なる。
解の方向は周波数ドメインにおける ℓ₂/L 正則化問題の定常点に収束し、周波数ドメインにおけるスパarsityへの強いインダクティブバイアスを示している。
勾配降下法が訓練損失を漸近的に最小化すると仮定するが、これはすべての局所的最小値がグローバル最小値である過パラメータ化設定では妥当である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。