Skip to main content
QUICK REVIEW

[論文レビュー] A Constructive Prediction of the Generalization Error Across Scales

Jonathan S. Rosenfeld, Amir Rosenfeld|arXiv (Cornell University)|Sep 27, 2019
Advanced Neural Network Applications参考文献 47被引用数 49
ひとこと要約

本論文は、モデル規模とデータ規模の両方に依存する一般化誤差の予測的な単純な関数形を提案し、固定されたスケーリング方針の下で小規模から大規模へ外挿を可能にする。

ABSTRACT

The dependency of the generalization error of neural networks on model and dataset size is of critical importance both in practice and for understanding the theory of neural networks. Nevertheless, the functional form of this dependency remains elusive. In this work, we present a functional form which approximates well the generalization error in practice. Capitalizing on the successful concept of model scaling (e.g., width, depth), we are able to simultaneously construct such a form and specify the exact models which can attain it across model/data scales. Our construction follows insights obtained from observations conducted over a range of model/data scales, in various model types and datasets, in vision and language tasks. We show that the form both fits the observations well across scales, and provides accurate predictions from small- to large-scale models and data.

研究の動機と目的

  • スケーリング方針の下で、一般化誤差がモデルサイズとデータセットサイズにどう共同で依存するかを理解する。
  • ビジョンと言語タスクのエラーレベルを横断して適合する、単純で解釈可能な関数形を提案する。
  • 提案された形式が、スケール間で高精度に一般化誤差を内挿・外挿できることを示す。

提案手法

  • 複数のビジョンおよび言語データセットとモデル間でエラーレベルのスケーリングパターンを経験的に分析する。
  • データサイズとモデルサイズのべき法則項を結合し、遷移エンベロープを組み込んだパラメトリックな誤差関数を提案する。
  • 10-foldクロスバリデーションを用いて小規模測定に関数を適合させ、データセット間で適合品質を評価する。
  • 見られた構成から見ていない大規模構成への外挿を実証し、予測精度を評価する。

実験結果

リサーチクエスチョン

  • RQ1与えられたスケーリング方針の下で、一般化誤差・モデルサイズ・データセットサイズの間の関数関係は何か。
  • RQ2単純なパラメトリック形が、ビジョンと言語タスクの両方のエラーレベルの景観を正確に適合・予測できるか。
  • RQ3提案されたスケーリング方針の下で、小規模な測定が大規模な性能をどの程度予測できるか。
  • RQ4小規模データに適合させた場合、見たことのない(より大きい)スケールに対してモデルがどれだけうまく一般化するか。

主な発見

  • エラーレ景観には、データサイズとモデルサイズのいずれかを固定したときに、べき法則的な挙動が誤差に近似する領域が存在する。
  • A proposed function epsilon(m, n) ≈ a(m)n^(-α(m)) + b(n)m^(-β(n)) + c_infty は、モデルサイズとデータサイズの両方への誤差の依存を結合的に捉える。
  • エンベロープは初期のランダム推定誤差からべき法則領域への滑らかな遷移を許し、スケールを横断した現実的な適合を可能にする。
  • データセット全体で、推定誤差と実測誤差の平均偏差はほとんどの場合1%未満、標準偏差はほとんど5%未満。
  • 小規模から大規模への外挿は、さまざまな構成下で平均偏差が数パーセント程度(例: ImageNetで4.5%、WikiText-103で0.5%)に達する。
  • このアプローチはResNet、WRN、VGG、DenseNet、AWD-LSTM、Transformer系など、複数のアーキテクチャと最適化手法でも高い精度を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。