Skip to main content
QUICK REVIEW

[論文レビュー] Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets

Alethea Power, Yuri Burda|arXiv (Cornell University)|Jan 6, 2022
Neural Networks and Applications被引用数 77
ひとこと要約

この論文は、ニューラルネットワークが小さなアルゴリズムデータセットでの memorization を超えた一般化をどのように行うかを調査し、グロッキングと呼ばれる遅い一般化現象を明らかにし、データ効率、最適化時間、正則化の効果を分析する。

ABSTRACT

In this paper we propose to study generalization of neural networks on small algorithmically generated datasets. In this setting, questions about data efficiency, memorization, generalization, and speed of learning can be studied in great detail. In some situations we show that neural networks learn through a process of "grokking" a pattern in the data, improving generalization performance from random chance level to perfect generalization, and that this improvement in generalization can happen well past the point of overfitting. We also study generalization as a function of dataset size and find that smaller datasets require increasing amounts of optimization for generalization. We argue that these datasets provide a fertile ground for studying a poorly understood aspect of deep learning: generalization of overparametrized neural networks beyond memorization of the finite training dataset.

研究の動機と目的

  • 小さなアルゴリズムデータセットで訓練されたニューラルネットワークの一般化挙動を調査する。
  • 長期間過学習が始まった後に一般化が改善するグロッキング現象を特徴づける。
  • データ効率とデータセットサイズが一般化までの最適化時間に与える影響を評価する。
  • 正則化と最適化設定がグロッキングに与える影響を評価する。
  • 出現する構造を理解するために学習済み埋め込みを可視化する。

提案手法

  • 抽象的な記号をトークンとする a ∘ b = c の2項演算表を用い、デコーダーのみのトランスフォーマーを訓練する。
  • 長時間の最適化予算後の検証精度を測定して一般化を評価する。
  • データセットサイズと最適化設定を体系的に変化させ、グロッキングへの影響を観察する。
  • 複数の2項演算をテストし、対称性と群構造が学習に与える影響を分析する。
  • 重み減衰、勾配ノイズ、学習率を含むアブレーションを適用してデータ効率を評価する。
  • 出力層の埋め込みを可視化して学習された構造を解釈する。

実験結果

リサーチクエスチョン

  • RQ1グロッキングはさまざまな2項演算とデータセットサイズの範囲にわたって発生しますか?
  • RQ2トレーニングデータの割合が減少すると、一般化までの最適化時間はどうスケールしますか?
  • RQ3データ効率とグロッキングを最も改善する正則化や最適化の工夫は何ですか?
  • RQ4モジュラー算術タスクで学習された埋め込みにはどのような構造が現れるか。
  • RQ5グロッキングを特徴づける損失と精度の曲線に定性的なパターンはありますか?

主な発見

  • グロッキングは複数の2項演算で発生し、検証精度が確率レベルから上昇し、訓練精度がすでに飽和した後も長く続く。
  • 小さなデータセットでは、データの割合が減少するほど一般化までの時間が急速に増加し、検証損失にダブルディセントのような挙動を示す。
  • 重み減衰は他の介入と比較してデータ効率と一般化を著しく改善する。
  • いくつかの対称演算はより少ないデータで一般化し、非対称な演算の中にはグロックするのにより多くのデータを要するものがある。
  • 埋め込みは時に解釈可能な構造、例えばモジュラー算術における循環的/トポロジカルな組織を示す。
  • グロッキングにおける最適な学習率のウィンドウは比較的狭く、効果を観察するには大きな最適化予算が必要になることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。