[論文レビュー] Predicting the Generalization Gap in Deep Networks with Margin Distributions
この論文は、複数の層にまたがるマージン分布ベースの指標を導入し、深層ネットワークの一般化ギャップを予測する。CIFAR-10/100でのホールドアウト精度と強い相関を示し、いくつかの境界を上回る。アプローチは層を跨る正規化マージン統計量を連結し、単純な線形予測子を用いる。
As shown in recent research, deep neural networks can perfectly fit randomly labeled data, but with very poor accuracy on held out data. This phenomenon indicates that loss functions such as cross-entropy are not a reliable indicator of generalization. This leads to the crucial question of how generalization gap should be predicted from the training data and network parameters. In this paper, we propose such a measure, and conduct extensive empirical studies on how well it can predict the generalization gap. Our measure is based on the concept of margin distribution, which are the distances of training points to the decision boundary. We find that it is necessary to use margin distributions at multiple layers of a deep network. On the CIFAR-10 and the CIFAR-100 datasets, our proposed measure correlates very strongly with the generalization gap. In addition, we find the following other factors to be of importance: normalizing margin values for scale independence, using characterizations of margin distribution rather than just the margin (closest distance to decision boundary), and working in log space instead of linear space (effectively using a product of margins rather than a sum). Our measure can be easily applied to feedforward deep networks with any architecture and may point towards new training loss functions that could enable better generalization.
研究の動機と目的
- トレーニング損失が小さい場合における深層ネットワークの一般化ギャップを動機づけて定量化し、従来の損失関数/境界が一般化を予測できない状況を示す。
- 複数の層に跨る情報を捉えるマージン分布ベースの指標を開発し、一般化ギャップを予測する。
- 層ごとのマージン分布を正規化し要約して、回帰のための縮約特徴量を形成する。
- 提案手法の予測力を、アーキテクチャ(CNNsとResNets)およびデータセット(CIFAR-10/100)に渡って示す。
- マージンベースの指標が、より良い一般化を実現する新しい損失関数や訓練手法の着想源となり得ることを提案する。
提案手法
- 決定境界までの距離の一階テイラー近似を用いて層ごとのマージン距離を定義する(Eq. 3)。
- 層の活性化の総分散(経験共分散のトレース)の平方根でマージンを正規化する(Eq. 5)。
- 各層でマージン分布を構築し、四分位数とフェンスで要約する(層ごとに 5 統計量)。
- 層ごとのシグネチャを総シグネチャベクトル theta に連結する(通常は入力層と3つの隠れ層の4層を使用)。
- 一般化ギャップを線形モデル hat{g} = a^T phi(theta) + b で予測し、phi(x)=x と phi(x)=log(x) を比較する。
- held-out のモデルプールに対して k-分割(k=10)で R^2 を用いて予測力を評価し、モデル適合度指標として調整済み R^2 を報告する。)
- research_questions:[
実験結果
リサーチクエスチョン
- RQ1隠れ層のマージン分布は出力層のマージンやノーマルベースの境界より一般化ギャップを予測する力があるか?
- RQ2マージンを正規化し層ごとのマージン情報を統合することで一般化ギャップ予測は改善されるか?
- RQ3アーキテクチャを超えて正確な予測を達成するには、何層がいくつ必要か(どの層が必要か)?
- RQ4簡単な線形モデルを用いた変換済みマージンシグネチャは、データセットおよびアーキテクチャを跨いで一般化ギャップを頑健に予測できるか?
主な発見
- 正規化された多層のマージン分布は一般化ギャップと強く相関し、出力マージンベースのベースラインより予測を改善する。
- 四分位数ベースのシグネチャと対数変換を用いると高い予測力を示す(実験で調整済み R^2 が示される)。
- 入力層だけでなく隠れ層からのマージン情報が予測精度に重要である。
- 提案されたマージンベースの予測子は、CIFAR-10/100 で CNNs と ResNets を用いた場合に Bartlett et al. (2017) および他のベースラインより一般化ギャップ予測で優れている。
- このアプローチは ResNet を含むフィードフォワード網にも適用可能で、一般化を改善する新しい損失関数の可能性を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。