QUICK REVIEW

[论文解读] To Grok Grokking: Provable Grokking in Ridge Regression

Mingyue Xu, Gal Vardi|arXiv (Cornell University)|Jan 27, 2026

Stochastic Gradient Optimization Techniques被引用 0

一句话总结

该论文在过参数化岭回归设置中提供了首个端到端可证明的 grokking 结果，展示了训练过拟合后出现延迟泛化并最终泛化，且通过超参数能够调节 grokking 的延迟。

ABSTRACT

We study grokking, the onset of generalization long after overfitting, in a classical ridge regression setting. We prove end-to-end grokking results for learning over-parameterized linear regression models using gradient descent with weight decay. Specifically, we prove that the following stages occur: (i) the model overfits the training data early during training; (ii) poor generalization persists long after overfitting has manifested; and (iii) the generalization error eventually becomes arbitrarily small. Moreover, we show, both theoretically and empirically, that grokking can be amplified or eliminated in a principled manner through proper hyperparameter tuning. To the best of our knowledge, these are the first rigorous quantitative bounds on the generalization delay (which we refer to as the "grokking time") in terms of training hyperparameters. Lastly, going beyond the linear setting, we empirically demonstrate that our quantitative bounds also capture the behavior of grokking on non-linear neural networks. Our results suggest that grokking is not an inherent failure mode of deep learning, but rather a consequence of specific training conditions, and thus does not require fundamental changes to the model architecture or learning algorithm to avoid.

研究动机与目标

以端到端的现象为动机，将 grokking 在经典回归设置中形式化。
证明带权重衰减的梯度下降在岭回归中可出现 grokking。
推导 grokking 时间相对于超参数的定量界限。
提供理论与经验证据表明可以通过超参数调优放大或减缓 grokking。

提出的方法

研究带有可实现的教师函数和学生线性模型的过参数化岭回归问题。
在正则化平方损失上使用带权重衰减的梯度下降进行训练。
证明三阶段的 grokking 行为：快速的训练损失下降、长期存在的差的泛化，以及最终的良好泛化（定理 4.2）。
在超参数（方程式（6）–（7））的函数上给出 grokking 时间（t2 - t1）的显式界限。
分析超参数（权重衰减、样本量、特征维度、初始化）对 grokking 的影响，理论与实验均支持。
将见解扩展到非线性网络的经验性研究，显示与线性岭回归界限的定性一致性。

To Grok Grokking: Provable Grokking in Ridge Regression

实验结果

研究问题

RQ1在经典线性回归配合岭回归和梯度下降下，能实现端到端的 grokking 吗？
RQ2在过参数化岭回归中，训练动力学如何造成过拟合与泛化之间的延迟？
RQ3超参数（如权重衰减、初始尺度、样本量、特征维度）如何定量影响 grokking 时间？
RQ4理论的 grokking 界限是否在经验上扩展到非线性网络？

主要发现

Grokking 发生：训练误差快速下降，但泛化在较长时间内仍然差，随后泛化提升到任意精度（定理 4.2）。
存在关于 grokking 时间的定量下界（t2 − t1），显示可通过超参数实现可控的延迟（方程（6）和（7））。
较小的权重衰减增加 grokking 延迟，t2 增大而 t1 不受 λ 影响，在合适条件下实现任意大的延迟。
初始化尺度、样本量和特征维度以可预测的方式影响 grokking 时间线，与定理描述一致并得到实验支持。
实验验证了理论界限，并展示了在线性与非线性情境中通过超参数控制 grokking 的实证结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。