[論文レビュー] To Grok Grokking: Provable Grokking in Ridge Regression
この論文は過剰パラメータ化されたリッジ回帰設定における最初のエンドツーエンドな証明付き grokking 結果を提供し、訓練時の過適合に続く遅延一般化と最終的な一般化を示し、ハイパーパラメータが grokking の遅延を調整できることを示します。
We study grokking, the onset of generalization long after overfitting, in a classical ridge regression setting. We prove end-to-end grokking results for learning over-parameterized linear regression models using gradient descent with weight decay. Specifically, we prove that the following stages occur: (i) the model overfits the training data early during training; (ii) poor generalization persists long after overfitting has manifested; and (iii) the generalization error eventually becomes arbitrarily small. Moreover, we show, both theoretically and empirically, that grokking can be amplified or eliminated in a principled manner through proper hyperparameter tuning. To the best of our knowledge, these are the first rigorous quantitative bounds on the generalization delay (which we refer to as the "grokking time") in terms of training hyperparameters. Lastly, going beyond the linear setting, we empirically demonstrate that our quantitative bounds also capture the behavior of grokking on non-linear neural networks. Our results suggest that grokking is not an inherent failure mode of deep learning, but rather a consequence of specific training conditions, and thus does not require fundamental changes to the model architecture or learning algorithm to avoid.
研究の動機と目的
- 古典的回帰設定における grokking をエンドツーエンド現象として動機づけ formalize する。
- 重み減衰を伴う勾配降下法がリッジ回帰で grokking を示しうることを示す。
- ハイパーパラメータの関数として grokking 時間の定量的境界を導出する。
- 理論的および経験的証拠を提供し、ハイパーパラメータ調整により grokking を増幅または緩和できることを示す。
提案手法
- 現実的な教師関数を持つ過剰パラメータ化されたリッジ回帰問題と生徒線形モデルを研究する。
- 正則化された二乗損失に対して重み減衰付き勾配降下法で訓練する。
- 三段階の grokking 挙動を証明する:高速な訓練損失の低下、長期にわたる貧弱な一般化、最終的な良好な一般化(Theorem 4.2)。
- ハイパーパラメータ(式 (6)–(7))に関する grokking 時間(t2 - t1)の明示的境界を提供する。
- ハイパーパラメータ(重み減衰、サンプルサイズ、特徴次元、初期化) の影響を、理論と実験で裏付けながら grokking に与える影響を分析する。
- 非線形ネットワークへの洞察を経験的に拡張し、線形リッジ境界と定性的に整合することを示す。

実験結果
リサーチクエスチョン
- RQ1古典的な線形回帰でリッジ正則化と勾配降下法を用いた場合に grokking をエンドツーエンドで証明できるか?
- RQ2過剰パラメータ化されたリッジ回帰において訓練ダイナミクスが過適合と一般化の間にどのような遅延を生み出すか?
- RQ3ハイパーパラメータ(例:重み減衰、初期化スケール、サンプルサイズ、特徴次元)は grokking 時間を定量的にどのように影響するか?
- RQ4理論的な grokking の界限は非線形ネットワークにも経験的に適用可能か?
主な発見
- Grokking が発生する:訓練誤差は迅速に低下する一方で一般化は長時間貧弱なまま、その後一般化が任意の精度まで改善する(Theorem 4.2)。
- t2 − t1 に関する grokking 時間の定量的下界があり、ハイパーパラメータを介して遅延を制御可能である(式 (6) および式 (7))。
- 小さな重み減衰は grokking の遅延を増大させ、t2 が増加し t1 は λ に影響を受けない。適切な条件下で任意に大きな遅延を可能にする。
- 初期化スケール、サンプルサイズ、特徴次元は、定理と実験で裏付けられた予測可能な方法で grokking のタイムラインに影響を与える。
- 実験は理論的境界を裏付け、線形および非線形設定の grokking をハイパーパラメータで制御できることを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。