[논문 리뷰] Emergent and Predictable Memorization in Large Language Models
이 논문은 큰 언어 모델이 특정 데이터를 기억하는지 예측하는 방법을 저비용의 소규모 또는 중간 학습 실행을 사용해 연구한다; 더 작은 모델은 더 큰 모델의 기억을 예측하는 데 부적합하며, 규모 법칙 현상을 분석해 등가 계산 예측을 안내한다.
Memorization, or the tendency of large language models (LLMs) to output entire sequences from their training data verbatim, is a key concern for safely deploying language models. In particular, it is vital to minimize a model's memorization of sensitive datapoints such as those containing personal identifiable information (PII). The prevalence of such undesirable memorization can pose issues for model trainers, and may even require discarding an otherwise functional model. We therefore seek to predict which sequences will be memorized before a large model's full train-time by extrapolating the memorization behavior of lower-compute trial runs. We measure memorization of the Pythia model suite and plot scaling laws for forecasting memorization, allowing us to provide equi-compute recommendations to maximize the reliability (recall) of such predictions. We additionally provide further novel discoveries on the distribution of memorization scores across models and data. We release all code and data necessary to reproduce the results in this paper at https://github.com/EleutherAI/pythia
연구 동기 및 목표
- 대형 LLM이 기억할 수 있는 학습 데이터 포인트를 예측함으로써 안전한 배치를 고무한다.
- 저비용의 사전 학습 체제(더 작거나 부분적으로 학습된 모델) 를 사용해 기억화를 예측하는 방법 개발.
- 이러한 예측의 신뢰성을 특징짓고 훈련 예산하에서 등가 계산(equi-compute) 권고를 제공한다.
- 모델 크기와 학습 진행도에 따라 기억화가 어떻게 스케일링되는지 분석해 emergent 패턴을 식별한다.
제안 방법
- k-extractibility를 기억화의 척도로 정의하고 탐욕적으로 생성된 연속에 기반한 기억 점수를 사용한다.
- 여러 크기의 Pythia 기반 모델 군에서 7개의 학습 체크포인트에 걸쳐 기억화를 평가한다.
- 작은 모델의 기억화를 더 큰 모델의 기억화 예측자로 간주하고 정밀도/재현율 지표를 계산한다.
- 완전하게 학습된 작은 모델의 예측과 완전하게 학습된 대형 모델의 예측을 비교해 스케일 간 예측을 평가한다.
- 같은 최종 모델 크기 내에서 부분 학습 체크포인트를 평가해 최종 기억화 동작을 예측한다.
- 스케일링 관계를 도표화하고 equi-compute 제약 하에서 emergent 기억화 현상을 분석한다.

실험 결과
연구 질문
- RQ1특정 시퀀스의 대형 언어 모델 기억화를 더 작은 모델의 기억화 행동으로 예측할 수 있는가?
- RQ2동일한 최종 모델 크기의 부분적으로 학습된 체크포인트로부터 대형 모델의 기억화를 예측할 수 있는가?
- RQ3모델 크기와 학습 예산에 따라 기억화를 예측할 때 어떤 스케일링 패턴이 나타나는가?
- RQ4저렴한 실행에서 파생된 예측 신호를 사용할 때 정밀도/재현율의 트레이드오프는 무엇인가?
주요 결과
| Model | Precision | Recall | Notes |
|---|---|---|---|
| Pythia-70M | 0.956 | 0.197 | Fully trained 12B predictor comparison |
| Pythia-160M | 0.948 | 0.289 | Fully trained 12B predictor comparison |
| Pythia-410M | 0.940 | 0.401 | Fully trained 12B predictor comparison |
| Pythia-1.0B | 0.931 | 0.512 | Fully trained 12B predictor comparison |
| Pythia-1.4B | 0.926 | 0.554 | Fully trained 12B predictor comparison |
| Pythia-2.8B | 0.909 | 0.658 | Fully trained 12B predictor comparison |
| Pythia-6.9B | 0.884 | 0.795 | Fully trained 12B predictor comparison |
- 더 작은 모델들(70M 매개변수까지)은 12B 모델의 기억화를 예측하는 데 높은 정밀도를 보이나 재현율은 매우 낮아 신뢰할 수 없는 예측기가 된다.
- 모델 규모 간 기억화의 상관관계는 크기 차이가 커질수록 저하되며, 작은 모델로부터 최종 기억화를 예측할 때 큰 재현율 차이가 생긴다.
- 부분 학습 체크포인트로부터 기억화를 예측하면 높은 정밀도를 얻지만 재현율이 신뢰 가능해지기 전에 상당한 계산이 필요하다.
- 이상한 스케일링 동작이 관찰되며, 등가 계산 예측은 계산 예산에 따라 어떤 크기가 최상의 예측자인지 바꾼다.
- 현 emergent 기억화가 질적으로 관찰되어 대형 모델의 기억화를 항상 작은 모델의 행동으로부터 추론할 수 없음을 시사한다.
- 저자들은 재현율을 최대화하면서 계산을 한정하는 최적의 등가 계산 예측기를 식별하기 위한 규모법칙 가이드 접근법을 제시한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.