[논문 리뷰] Scaling Laws and Interpretability of Learning from Repeated Data
이 논문은 대형 언어 모델 학습에서 반복 데이터의 소량이 강한 더블 디센트 현상을 유발하고 이를 기계적 해석 가능성과 연결하며, 복사 및 유도 헤드 관련 구조에 비례적으로 큰 피해를 준다는 점을 보여준다.
Recent large language models have been trained on vast datasets, but also often on repeated data, either intentionally for the purpose of upweighting higher quality data, or unintentionally because data deduplication is not perfect and the model is exposed to repeated data at the sentence, paragraph, or document level. Some works have reported substantial negative performance effects of this repeated data. In this paper we attempt to study repeated data systematically and to understand its effects mechanistically. To do this, we train a family of models where most of the data is unique but a small fraction of it is repeated many times. We find a strong double descent phenomenon, in which repeated data can lead test loss to increase midway through training. A predictable range of repetition frequency leads to surprisingly severe degradation in performance. For instance, performance of an 800M parameter model can be degraded to that of a 2x smaller model (400M params) by repeating 0.1% of the data 100 times, despite the other 90% of the training tokens remaining unique. We suspect there is a range in the middle where the data can be memorized and doing so consumes a large fraction of the model's capacity, and this may be where the peak of degradation occurs. Finally, we connect these observations to recent mechanistic interpretability work - attempting to reverse engineer the detailed computations performed by the model - by showing that data repetition disproportionately damages copying and internal structures associated with generalization, such as induction heads, providing a possible mechanism for the shift from generalization to memorization. Taken together, these results provide a hypothesis for why repeating a relatively small fraction of data in large language models could lead to disproportionately large harms to performance.
연구 동기 및 목표
- 반복 데이터가 언어 모델 성능에 미치는 영향을 규모-법칙 프레임워크를 사용해 분석한다.
- 모델 크기와 반복 빈도에 따라 발생하는 이중 하강 현상을 데이터 반복으로 설명한다.
- 특히 유도 헤드와 복사를 포함한 기계적 해석 가능성 측면에서 성능 저하를 설명한다.
- 반복 데이터로의 사전 학습이 후속 미세 조정과 일반화에 미치는 영향을 평가한다.
제안 방법
- 데이터의 대부분이 고유하고, 적은 비율의 데이터가 여러 차례 반복되도록 하여 모델을 2–3 차원의 규모 및 반복 빈도에서 학습한다.
- 학습 중 모델 크기, 반복 데이터의 크기 및 반복 데이터에서의 토큰 비율을 변화시키며 100B 토큰까지 학습한다.
- 테스트 손실, 복사 중심 작업(해리 포터 단락 복사) 및 Prefix 매칭, 유도 헤드와 같은 기계적 탐침을 사용해 평가한다.
- 반복으로 인해 저하가 피크에 이르는 영역을 식별하여 규모-법칙과의 일치를 확인하고 이중 하강 현상을 나타낸다.
- 회로 수준에서 주의(attention)만을 사용하는 소형 모델을 이용해 유도 헤드와 복사를 점검하고 현상과 원리를 연결한다.
실험 결과
연구 질문
- RQ1소량의 반복 데이터가 모델 크기와 반복 빈도에 따라 성능 저하를 불균형하게 유발하는가?
- RQ2반복 데이터가 복사 및 맥락 내 학습 메커니즘(유도 헤드)에 어떤 영향을 미치는가?
- RQ3저하 패턴을 이중 하강 다이나믹으로 설명할 수 있으며 이는 규모 법칙과 어떤 관련이 있는가?
- RQ4반복 데이터로의 사전 학습이 이후 미세 조정 성능에 어떤 영향을 주는가?
- RQ5복사, 접두사 매칭, 유도 헤드 등의 기계적 해석 가능 탐침이 반복과 암기 행동 사이의 인과관계를 드러내는가?
주요 결과
- 반복 데이터는 강한 이중 하강 현상을 유발하며, 중간 반복 빈도에서 피크 저하를 보인다.
- 800M 매개변수 모델의 경우 데이터를 0.1% 반복해 100배 반복해도 성능이 400M 매개변수 모델 수준으로 저하될 수 있다.
- 피크 저하는 반복 데이터에 대한 학습 손실이 0에 가까워지는 시점과 일치하며 이는 반복 부분에서의 암기를 시사한다.
- 반복 데이터는 복사 및 유도 헤드 관련 구조에 비해 전체 테스트 손실보다 과도하게 큰 타격을 준다.
- 피크 저하 시점에서 복사 작업은 효과적 모델 크기가 최대 3배 감소하는 것으로 나타나며, 테스트 손실이 덜 악화되더라도 손상은 크다.
- 유도 헤드와 접두사 매칭은 반복 하에서 현저한 저하를 겪으며 암기를 모델의 기계적 변화와 연결한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.