[논문 리뷰] Quantifying Memorization Across Neural Language Models
본 논문은 신경 언어 모델에서 기억화가 모델 규모, 데이터 중복 및 컨텍스트 길이에 따라 어떻게 스케일링되는지 정량화하고, 로그-선형 성장과 중복 제거가 기억화 감소에 미치는 영향을 보여준다.
Large language models (LMs) have been shown to memorize parts of their training data, and when prompted appropriately, they will emit the memorized training data verbatim. This is undesirable because memorization violates privacy (exposing user data), degrades utility (repeated easy-to-memorize text is often low quality), and hurts fairness (some texts are memorized over others). We describe three log-linear relationships that quantify the degree to which LMs emit memorized training data. Memorization significantly grows as we increase (1) the capacity of a model, (2) the number of times an example has been duplicated, and (3) the number of tokens of context used to prompt the model. Surprisingly, we find the situation becomes more complicated when generalizing these results across model families. On the whole, we find that memorization in LMs is more prevalent than previously believed and will likely get worse as models continues to scale, at least without active mitigations.
연구 동기 및 목표
- 다양한 모델 계열과 데이터 세트에서 추출 가능성 정의를 이용해 기억화의 정도를 정량화한다.
- 모델 규모, 데이터 중복, 프롬프트 길이에 따라 기억화가 어떻게 스케일링되는지 특징화한다.
- 디코딩 전략과 평가 데이터 샘플링이 기억화 측정에 미치는 영향을 조사한다.
- 데이터 중복 제거나 데이터 세트 수정이 모델 간 기억화를 완화하는지 평가한다.
제안 방법
- 추출 가능성으로 기억화를 정의: 컨텍스트 토큰 k개가 주어졌을 때 접두사 p가 학습 데이터에 존재하고 f(p)가 s를 출력하는 경우(그리디 디코딩)로 s를 추출 가능하다고 본다.
- 학습 데이터에서 접두사를 프롬프트로 제시하고 시퀀스 부분집합 간에 정확한 접미사 재현을 측정하여 기억화를 평가한다.
- 두 가지 샘플링 방식 사용: (i) 균일하게 무작위 데이터 하위집합, (ii) 길이와 중복 수에 따라 중복-정규화 샘플링으로 기억화를 스트레스 테스트한다.
- 다양한 컨텍스트 길이(50에서 450+ 토큰)로 모델에 프롬프트를 주어 기억된 시퀀스의 발견 가능성을 연구한다.
- scaling 추세의 일반성을 테스트하기 위해 모델 계열(GPT-Neo on The Pile; T5 on C4; OPT on The Pile)을 재현한다.
- 그리디 디코딩과 빔 탐색을 비교하여 디코딩이 추출 가능한 기억화에 미치는 영향을 평가한다.
실험 결과
연구 질문
- RQ1모델 계열 내에서 모델 규모가 기억화에 어떻게 스케일링되는가?
- RQ2중복된 학습 예시의 빈도(데이터 중복)가 기억화에 어떤 영향을 미치는가?
- RQ3컨텍스트의 양(프롬프트 길이)이 기억화의 발견 가능성에 어떻게 영향을 주는가?
- RQ4중복 제거된 학습 데이터가 모델과 작업 전반에서 기억화를 감소시키는가?
- RQ5다른 모델 계열과 학습 데이터 세트가 관찰된 기억화 스케일링 법칙에 어떤 영향을 미치는가?
주요 결과
- 모델 가족 내에서 모델 규모가 증가함에 따라 기억화가 로그-선형으로 증가하며, 파라미터를 두 배로 늘리면 추출 가능한 데이터가 상당히 증가한다.
- 더 많은 중복 학습 예시가 기억화를 더 크게 이끌며, 중복 수에 따른 명확한 로그-선형 경향이 있다.
- 더 긴 컨텍스트 토큰은 추출 가능성을 크게 증가시키며, 충분한 맥락에서만 기억화를 발견할 수 있는 발견 가능성 현상을 보인다.
- 그리디 디코딩에 비해 빔 탐색이 추출 가능한 기억화를 약간 증가시키지만 그 영향은 미미하다.
- 중복 제거된 학습 데이터는 낮은~중간 수준의 반복에서 기억화를 감소시키지만, 높은 반복 사례에서는 완화 효과가 줄어든다.
- 모델 계열(GPT-Neo on The Pile, T5 on C4, OPT on The Pile) 전반에서 스케일 효과는 지속되지만 크기가 다르며, 데이터 선별이 기억화 정도에 영향을 줄 수 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.