[논문 리뷰] Deduplicating Training Data Mitigates Privacy Risks in Language Models
이 논문은 웹에서 수집된 학습 데이터의 중복이 암기와 프라이버시 공격의 성공에 영향을 미친다는 것을 보여주며, 데이터 중복 제거는 언어 모델의 성능에 해를 끼치지 않으면서 누출을 크게 감소시킨다.
Past work has shown that large language models are susceptible to privacy attacks, where adversaries generate sequences from a trained model and detect which sequences are memorized from the training set. In this work, we show that the success of these attacks is largely due to duplication in commonly used web-scraped training sets. We first show that the rate at which language models regenerate training sequences is superlinearly related to a sequence's count in the training set. For instance, a sequence that is present 10 times in the training data is on average generated ~1000 times more often than a sequence that is present only once. We next show that existing methods for detecting memorized sequences have near-chance accuracy on non-duplicated training sequences. Finally, we find that after applying methods to deduplicate training data, language models are considerably more secure against these types of privacy attacks. Taken together, our results motivate an increased focus on deduplication in privacy-sensitive applications and a reevaluation of the practicality of existing privacy attacks.
연구 동기 및 목표
- 학습 데이터에서 정확한 시퀀스 중복이 언어 모델의 학습 샘플 생성에 어떤 영향을 미치는지 파악한다.
- 다양한 수준의 데이터 중복에서 멤버십 추론 공격의 효과를 평가한다.
- 중복 제거가 모델 성능을 해치지 않으면서 프라이버시 위험을 줄이는지 평가한다.
제안 방법
- 학습 데이터에서 중복 수에 따른 시퀀스 재생성 비율을 측정한다.
- ExactSubstr 중복 제거를 탐지하기 위해 접미사 배열 기반의 중복 제거를 적용한다.
- 다양한 중복 설정에서 Carlini 등 스타일의 모델 반전 공격 및 멤버십 추론 점수를 평가한다.
- 중복 제거된 데이터로 다시 학습한 모델의 누출 및 멤버십 추론 방법의 AUROC를 비교한다.
- 일반 모델과 중복 제거 모델의 누출 및 AUROC를 보여주는 결과 표를 제공한다.
실험 결과
연구 질문
- RQ1LM이 재생성될 가능성에 대해 학습 시퀀스의 중복 수가 어떻게 영향을 미치는가?
- RQ2다양한 중복 수준에서 기억된 시퀀스를 탐지하는 멤버십 추론 방법은 얼마나 효과적인가?
- RQ3중복 제거가 프라이버시 위험을 의미 있게 줄이면서도 언어 모델의 성능 저하를 초래하지 않는가?
주요 결과
| 측정항목 | 일반 모델 | 중복 제거 모델 |
|---|---|---|
| 생성된 훈련 데이터 수 | 1,427,212 | 68,090 |
| 비율 | 0.14 | 0.007 |
| 메모리 추론 AUROC (zlib) | 0.76 | 0.67 |
| 메모리 추론 AUROC (참조 모델) | 0.88 | 0.87 |
| 메모리 추론 AUROC (소문자) | 0.86 | 0.68 |
- 재생성은 학습 시퀀스 중복 수와 초과 선형적으로 관련되어; 10회 중복된 시퀀스는 한 번 중복된 시퀀스보다 약 1000배 더 자주 재생성된다.
- 중복되지 않은 시퀀스에 대해서는 기억 탐지 방법이 거의 확률에 가까운 성능을 보이며, 그 효과는 중복 수준에 따라 커진다.
- 중복 제거 학습 데이터는 모델이 생성하는 학습 데이터가 약 20배 감소하고 대부분의 중복에서 멤버십 추론 방법의 AUROC를 감소시키며 perplexity는 영향을 받지 않는다.
- 중복 제거된 모델이 학습 데이터를 재생성하더라도 일부 누출은 여전히 탐지될 수 있으며, 특히 Reference Model 점수에서 그렇다.
- 전반적으로 중복 제거는 모델 반전 공격에 효과적인 방어책이며 모델 성능에 미치는 영향은 최소하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.