QUICK REVIEW

[논문 리뷰] To Grok Grokking: Provable Grokking in Ridge Regression

Mingyue Xu, Gal Vardi|arXiv (Cornell University)|2026. 01. 27.

Stochastic Gradient Optimization Techniques인용 수 0

한 줄 요약

이 논문은 과도하게 매개변수화된 리지 회귀 설정에서 처음으로 엔드-to-엔드로 증명 가능한 grokking 결과를 제시하며, 훈련 과적합이 지연된 일반화와 궁극적 일반화로 이어짐을 보이고, 하이퍼파라미터가 grokking 지연을 조정할 수 있음을 보여준다.

ABSTRACT

We study grokking, the onset of generalization long after overfitting, in a classical ridge regression setting. We prove end-to-end grokking results for learning over-parameterized linear regression models using gradient descent with weight decay. Specifically, we prove that the following stages occur: (i) the model overfits the training data early during training; (ii) poor generalization persists long after overfitting has manifested; and (iii) the generalization error eventually becomes arbitrarily small. Moreover, we show, both theoretically and empirically, that grokking can be amplified or eliminated in a principled manner through proper hyperparameter tuning. To the best of our knowledge, these are the first rigorous quantitative bounds on the generalization delay (which we refer to as the "grokking time") in terms of training hyperparameters. Lastly, going beyond the linear setting, we empirically demonstrate that our quantitative bounds also capture the behavior of grokking on non-linear neural networks. Our results suggest that grokking is not an inherent failure mode of deep learning, but rather a consequence of specific training conditions, and thus does not require fundamental changes to the model architecture or learning algorithm to avoid.

연구 동기 및 목표

고전적 회귀 설정에서 grokking을 엔드-투-엔드 현상으로 동기부여하고 형식화한다.
가중치 감소를 사용하는 경사하강법이 리지 회귀에서 grokking을 보일 수 있음을 보인다.
하이퍼파라미터의 함수로 grokking 시간에 대한 정량적 경계를 도출한다.
하이퍼파라미터 조정을 통해 grokking이 증폭되거나 완화될 수 있다는 이론적 및 실증적 증거를 제공한다.

제안 방법

실현 가능한 교사 함수와 학생 선형 모델을 갖는 과도하게 매개변수화된 리지 회귀 문제를 연구한다.
규제된 제곱 손실에 대해 가중치 감소를 사용한 경사하강법으로 학습한다.
빠른 학습 손실 감소, 장기간 지속되는 불량한 일반화, 그리고 궁극적으로 좋은 일반화를 보이는 3단계 grokking 행동을 증명한다 (Theorem 4.2).
하이퍼파라미터의 항으로 grokking 시간 (t2 - t1)에 대한 명시적 경계 제공 (Equations (6)–(7)).
이론과 실험으로 뒷받침되는 가중치 감소, 샘플 크기, 특징 차원, 초기화가 grokking에 미치는 영향을 분석한다.
비선형 네트워크에 대한 정보를 실증적으로 확장하여 선형-리지가이드 경계와의 정성적 일치를 보여준다.

To Grok Grokking: Provable Grokking in Ridge Regression

실험 결과

연구 질문

RQ1리지 정규화와 경사하강법을 사용한 고전적 선형 회귀에서 grokking을 엔드-투-엔드로 증명할 수 있는가?
RQ2과도하게 매개변수화된 리지 회귀에서 학습 역학이 과적합과 일반화 사이의 지연을 어떻게 만들어내는가?
RQ3하이퍼파라미터(예: 가중치 감소, 초기화 스케일, 샘플 크기, 특징 차원)가 grokking 시간에 정량적으로 어떤 영향을 미치는가?
RQ4이론적 grokking 경계가 비선형 네트워크에 실증적으로 확장되는가?

주요 결과

Grokking이 발생한다: 훈련 오차가 빠르게 감소하고, 일반화는 오랫동안 좋지 않다가 임의의 정확도로 일반화가 개선된다 (Theorem 4.2).
grokkking 시간 (t2 − t1)에 대한 정량적 하한이 있으며, 하이퍼파라미터를 통해 지연을 조절할 수 있음을 보인다 (Equations (6) 및 (7)).
더 작은 가중치 감소는 grokking 지연을 증가시키며, t2는 커지고 t1은 λ에 의해 영향을 받지 않아, 적절한 조건에서 임의로 큰 지연이 가능하다.
초기화 스케일, 샘플 크기, 특징 차원성은 정리에 의해 예측 가능한 방식으로 grokking 타임라인에 영향을 주며, 실험으로도 뒷받침된다.
실험은 이론적 경계를 확인하고 선형 및 비선형 설정 모두에서 하이퍼파라미터로 grokking을 제어하는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.