[논문 리뷰] Extracting Training Data from Large Language Models
이 논문은 GPT-2에 대한 블랙박스 학습 데이터 추출 공격을 시연하여 수백 건의 그대로인 학습 예시를 회수하고 민감한 정보를 드러내며, 기억화에 영향을 미치는 요인을 분석하고 완화 권고를 제시한다.
It has become common to publish large (billion parameter) language models that have been trained on private datasets. This paper demonstrates that in such settings, an adversary can perform a training data extraction attack to recover individual training examples by querying the language model. We demonstrate our attack on GPT-2, a language model trained on scrapes of the public Internet, and are able to extract hundreds of verbatim text sequences from the model's training data. These extracted examples include (public) personally identifiable information (names, phone numbers, and email addresses), IRC conversations, code, and 128-bit UUIDs. Our attack is possible even though each of the above sequences are included in just one document in the training data. We comprehensively evaluate our extraction attack to understand the factors that contribute to its success. Worryingly, we find that larger models are more vulnerable than smaller models. We conclude by drawing lessons and discussing possible safeguards for training large language models.
연구 동기 및 목표
- 블랙박스 접근만으로 대형 언어 모델에 대한 실용적인 학습 데이터 추출 공격을 시연한다.
- 공개 소스 데이터로 학습된 GPT-2의 기억화 정도와 특성을 정량화한다.
- 기억화와 누출에 영향을 주는 요인(모델 크기, 데이터 빈도)을 식별한다.
- 완화책을 제안하고 프라이버시 보존 학습 접근법과 그 트레이드오프를 논의한다.
제안 방법
- 다양한 샘플링 전략을 사용해 타깃 LM에서 높은 가능성을 가진 샘플 대량 생성.
- 다수의 멤버십 추론 메트릭을 이용해 추정된 기억 시퀀스를 랭크화하고 선택한다.
- 모델 저자와의 협력을 통해 학습 데이터와 대조 검증으로 기억된 출력의 진위를 확인한다.
- 기억화 거동을 연구하기 위해 모델 크기, 샘플링 구성, 데이터 특성을 체계적으로 변화시킨다.
- 문자열 빈도, 모델 크기, 공격 구성의 추출 성공에 대한 영향을 분석한다.
- 차등 개인정보보호, 데이터 중복 제거 등 실용적 완화책과 기타 전략을 논의한다.
실험 결과
연구 질문
- RQ1블랙박스 접근하에서 대형 언어 모델은 어느 정도까지 기억하고 원문 그대로의 학습 데이터를 누설하는가?
- RQ2기억화와 추출 성공에 영향을 주는 요인(모델 크기, 데이터 빈도, 샘플링 방법)은 무엇인가?
- RQ3다양한 공격 구성과 멤버십 추론 메트릭이 기억된 내용을 식별하는 데 얼마나 효과적인가?
- RQ4기억화를 줄이되 모델 유용성에 심각한 피해를 주지 않는 완화책은 무엇인가?
- RQ5관찰된 기억화 현상이 GPT-2를 넘어 다른 모델에도 일반화될 가능성이 있는가?
주요 결과
- 공격자는 블랙박스 질의를 이용해 GPT-2에서 수백 개의 원문 학습 시퀀스를 추출할 수 있다.
- 최상의 구성에서 후보 샘플의 67%가 원문 학습 예시이다.
- 기억된 내용에는 이름, 이메일, 전화번호, IRC 대화, 코드, 128비트 UUID 등이 포함될 수 있다.
- GPT-2 계열 내에서 더 큰 모델이 더 작은 모델보다 기억화에 더 취약하다.
- 샘플링, 온도 감소, 인터넷 접두사 조건화, 다중 추론 메트릭 등 2다스의 공격 전략을 평가해 강력한 추출 패턴을 밝힘.
- 차등 개인정보보호, 신중한 데이터 중복 제거와 같은 완화책이 도움이 되나 누출을 완전히 방지하지는 못한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.