Skip to main content
QUICK REVIEW

[논문 리뷰] Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets

Alethea Power, Yuri Burda|arXiv (Cornell University)|2022. 01. 06.
Neural Networks and Applications인용 수 77
한 줄 요약

이 논문은 작은 알고리즘 데이터셋에서 신경망이 기억화 이상으로 일반화하는 방식은 무엇인지 조사하며, grokking이라고 불리는 늦은 일반화 현상을 밝히고 데이터 효율성, 최적화 시간, 규제화 효과를 분석한다.

ABSTRACT

In this paper we propose to study generalization of neural networks on small algorithmically generated datasets. In this setting, questions about data efficiency, memorization, generalization, and speed of learning can be studied in great detail. In some situations we show that neural networks learn through a process of "grokking" a pattern in the data, improving generalization performance from random chance level to perfect generalization, and that this improvement in generalization can happen well past the point of overfitting. We also study generalization as a function of dataset size and find that smaller datasets require increasing amounts of optimization for generalization. We argue that these datasets provide a fertile ground for studying a poorly understood aspect of deep learning: generalization of overparametrized neural networks beyond memorization of the finite training dataset.

연구 동기 및 목표

  • 작은 알고리즘 데이터셋에서 학습된 신경망의 일반화 동작 연구.
  • 일반화가 과적합이 시작된 시점 이후로 길게 지연될 때 grokking 현상을 특징화한다.
  • 데이터 효율성 및 데이터셋 크기가 일반화까지의 최적화 시간에 미치는 영향을 평가한다.
  • 정규화 및 최적화 설정이 grokking에 미치는 영향을 평가한다.
  • 발견된 구조를 이해하기 위해 학습된 임베딩 시각화.

제안 방법

  • 추상 기호를 토큰으로 사용하는 이진 연산 표 a ∘ b = c에 대해 디코더-전용 트랜스포머를 학습시킨다.
  • 오랜 최적화 예산 후 검증 정확도를 측정하여 일반화를 평가한다.
  • 데이터셋 크기와 최적화 설정을 체계적으로 바꿔 grokking에 미치는 영향을 관찰한다.
  • 여러 이진 연산을 테스트하고 대칭성 및 군 구조가 학습에 어떤 영향을 미치는지 분석한다.
  • 가중치 감소, 그래디언트 노이즈, 학습률 등 Ablation을 적용하여 데이터 효율성을 평가한다.
  • 출력층 임베딩을 시각화하여 학습된 구조를 해석한다.

실험 결과

연구 질문

  • RQ1groking은 다양한 이진 연산과 데이터셋 크기에 걸쳐 발생하는가?
  • RQ2학습 데이터 비율이 감소할수록 일반화까지의 최적화 시간은 어떻게 비례하는가?
  • RQ3데이터 효율성과 grokking을 가장 개선하는 정규화 또는 최적화 기법은 무엇인가?
  • RQ4모듈러 산술 작업에서 학습된 임베딩에서 어떤 구조가 나타나는가?
  • RQ5손실 및 정확도 곡선에 grokking을 특징짓는 질적 패턴이 있는가?

주요 결과

  • Grokking은 여러 이진 연산에서 발생하며, 훈련 정확도가 포화된 시점 이후에도 검증 정확도가 우연에서 벗어나 상승한다.
  • 데이터셋이 작을수록 일반화까지의 시간이 데이터 비율이 감소함에 따라 급격히 증가하여 검증 손실에서 이중하강과 유사한 현상을 보인다.
  • 가중치 감소는 다른 개입에 비해 데이터 효율성과 일반화를 크게 개선한다.
  • 일부 대칭 연산은 적은 데이터로도 일반화되며, 특정 비대칭 연산은 grokking을 위해 더 많은 데이터가 필요하다.
  • 임베딩은 때때로 모듈러 산술에서 원형/위상적 조직과 같은 해석 가능한 구조를 드러낸다.
  • groking의 최적 학습률 창은 비교적 좁고, 이를 관찰하기 위해서는 큰 최적화 예산이 필요하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.