[논문 리뷰] Scale Dependent Data Duplication
본 논문은 의미론적 중복이 규모가 커질수록 점점 더 해로워진다는 것을 보여주고, 제한된 의미론적 고유성을 설명하기 위한 확장 법칙을 도출하며, 예측 가능한 스케일링을 회복하기 위해 효과적인 의미론 풀 크기를 추정하는 실용적 방법을 제시한다.
Data duplication during pretraining can degrade generalization and lead to memorization, motivating aggressive deduplication pipelines. However, at web scale, it is unclear what constitutes a ``duplicate'': beyond surface-form matches, semantically equivalent documents (e.g. translations) may induce redundant training signals once models become sufficiently capable. Practically, this means that semantic duplicates operate increasingly like exact duplicates during training. We present evidence that duplication is scale-dependent in two ways. First, as model capability increases, cross-entropy loss gradients for semantically equivalent documents become more aligned. Smaller models, by contrast, produce gradients that reflect surface similarity (e.g., shared tokens) rather than semantic similarity. Second, we embedded all 192 million FineWeb-Edu-Dedup documents using EmbeddingGemma-300m. For moderate corpus sizes, the cosine similarity between nearest-neighbors follows an isotropic power law baseline. However, as corpus size grows to hundreds of billions of tokens, the nearest-neighbor similarities deviate sharply, indicating accelerated semantic collisions. Finally, controlled pretraining on data sampled with replacement from pools of finite unique documents shows that limited uniqueness yields mild degradation for small models, but rapidly increasing loss penalties for larger models, breaking naive scaling extrapolation. We derive explicit scaling laws that allow practitioners to estimate deviation from expected scaling due to limited semantic uniqueness of the pretraining corpus. Our results identify and resolve an unstudied source of scale-dependence, allowing for more accurate prediction at scale.
연구 동기 및 목표
- 모델 능력이 커짐에 따라 의미론적 중복이 학습 신호에 미치는 영향을 정량화한다.
- 대규모에서 의미적으로 동등한 문서에 대해 거의 중복에 가까운 신호가 나타남을 보인다.
- 더 큰 말뭉치가 표면적 유사성 기대치를 넘어 가속화된 의미론적 충돌을 나타낸다.
- 제한된 의미 고유성을 포함하는 스케일링 법칙을 도출하여 예측 가능한 확장을 회복한다.
- 훈련 데이터 통계로부터 효과적인 의미론 풀 크기를 추정하는 실용적 방법을 제공한다.
제안 방법
- 모델 규모에 따라 문서별 교차 엔트로피 그래디언트와 의미 보존 변환 간의 그래디언트 유사도를 측정한다.
- 실제 대규모 문서 집합(FineWeb-Edu-Dedup)을 임베딩하고 말뭉치 크기에 따른 최근접 이웃 코사인 유사도를 분석하여 스케일링 중단점을 식별한다.
- 정제된 데이터 풀로 디코딩 트랜스포머를 학습시켜 계산 자원이 증가함에 따라 유한한 고유성이 성능을 어떻게 저하하는지 관찰한다.
- 의미를 계층적 잠재변수로 보고 그래디언트 분해(mu, delta_z, xi_x)에 의해 효과적 중복을 정의하는 이론을 개발한다.
- 고유성이 제한될 때 예측 가능한 확장을 회복하기 위해 Delta(C,K) = a C^beta K^(-gamma)인 3-매개변수 평면 법칙을 제안한다.
- 평균 최근접 이웃 코사인 유사도에서 유효 K_eff를 추정하는 방법을 제공한다(식 29–34).

실험 결과
연구 질문
- RQ1모델 능력이 커질수록 의미적으로 동등한 문서가 더 정렬된(일치된) 학습 그래디언트를 유도하는가?
- RQ2말뭉치 크기가 의미론적 충돌과 등방성 스케일링 법칙에서의 편차에 어떤 영향을 미치는가?
- RQ3제한된 의미 고유성으로 인한 규모 의존적 저하를 모델링하고 교정할 수 있는가?
- RQ4관측 가능한 학습 흐름으로부터 효과적 의미론 풀 크기를 추정하여 스케일링 예측 가능성을 회복할 수 있는가?
- RQ5합성 데이터 말뭉치가 실제 데이터와 동일한 스케일링 법칙의 붕괴를 보이는가, 그리고 이것이 데이터 다양성에 대해 무엇을 시사하는가?
주요 결과
- 의미론적 중복은 능력이 더 큰 모델에서 정렬된 그래디언트 업데이트를 유도하여 의미론적 중복이 학습 중 정확한 중복처럼 작용한다.
- 큰 말뭉치 크기에서 최근접 이웃 코사인 유사도 스케일링이 멱법칙 기반 기준선에서 벗어나며, 이는 가속화된 의미론적 충돌을 시사한다.
- 합성 데이터는 실제 데이터보다 먼저 스케일링 법칙의 편차를 보이며, 합성 데이터 세트에 의미 다양성이 더 낮음을 시사한다.
- 학습 데이터의 유한한 고유성은 규모 의존적 저하를 야기하여 더 큰 모델에 대한 단순한 스케일링 외삽을 깨뜨린다.
- 3매개변수 평면 법칙이 계산 자원과 풀 크기에 걸쳐 평가 손실을 정확히 예측하여 확장 가능한 예측성을 회복한다.
- 평균 최근접 이웃 코사인 유사도에서 유효 의미론 풀 크기 K_eff를 추정할 수 있어 실용적인 스케일링 수정이 가능하다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.