[논문 리뷰] The Secret Sharer: Measuring Unintended Neural Network Memorization & Extracting Secrets
이 논문은 딥러닝 모델에서 비밀 정보의 뜻하지 않은 기억화를 측정하기 위한 단순한 지표인 '노출도(exposure)'를 소개한다. 블랙박스 API 접근을 통해 저자들은 효율적인 비밀 정보 추출을 입증하고, 기억화가 조기에 발생하며 다양한 모델 간에 지속되며, 과적합의 결과가 아님을 보여주며, 더 강력한 방어 조치가 필요함을 시사한다. 이들의 검증에 따르면, 차별적(private) 훈련을 통해 이러한 방어 조치를 달성할 수 있음을 확인한다.
Machine learning models based on neural networks and deep learning are being rapidly adopted for many purposes. What those models learn, and what they may share, is a significant concern when the training data may contain secrets and the models are public -- e.g., when a model helps users compose text messages using models trained on all users' messages. This paper presents exposure: a simple-to-compute metric that can be applied to any deep learning model for measuring the memorization of secrets. Using this metric, we show how to extract those secrets efficiently using black-box API access. Further, we show that unintended memorization occurs early, is not due to over-fitting, and is a persistent issue across different types of models, hyperparameters, and training strategies. We experiment with both real-world models (e.g., a state-of-the-art translation model) and datasets (e.g., the Enron email dataset, which contains users' credit card numbers) to demonstrate both the utility of measuring exposure and the ability to extract secrets. Finally, we consider many defenses, finding some ineffective (like regularization), and others to lack guarantees. However, by instantiating our own differentially-private recurrent model, we validate that by appropriately investing in the use of state-of-the-art techniques, the problem can be resolved, with high utility.
연구 동기 및 목표
- 비밀 데이터나 비밀을 담고 있는 데이터셋으로 훈련된 딥러닝 모델에서 민감한 데이터의 뜻하지 않은 기억화를 정량화하는 것.
- 모든 딥러닝 모델에 적용 가능한 실용적이고 보편적인 지표인 '노출도(exposure)'를 개발하여 기억화 정도를 측정하는 것.
- 생산용 모델에서도 블랙박스 API 접근만으로도 비밀 정보를 효율적으로 추출할 수 있음을 입증하는 것.
- 기억화의 근본 원인을 분석하여, 기억화 시점, 지속성, 과적합과의 독립성 등을 조사하는 것.
- 기존의 방어 조치들을 평가하고, 차별적(private) 훈련이 기억화를 효과적으로 완화하면서도 모델의 유용성을 유지할 수 있음을 검증하는 것.
제안 방법
- 기억화된 데이터 인스턴스를 프롬프트로 사용했을 때 모델의 출력 확률 분포를 기반으로 '노출도(exposure)'를 지표로 제안한다.
- 모델의 API에 대한 블랙박스 쿼리 접근을 통해 반복적으로 출력 가능성도를 측정함으로써 기억화된 비밀 정보를 탐색한다.
- 예를 들어, 신용카드 번호가 포함된 엔론 이메일을 포함한 비밀 정보를 담고 있는 데이터셋으로 모델을 훈련시켜 다양한 아키텍처와 훈련 전략에서 기억화 정도를 평가한다.
- 가중치 감소, 드롭아웃, 적대적 훈련 등의 다양한 방어 조치를 적용하여 노출도 감소 효과를 평가한다.
- 차별적(private) 훈련을 적용한 순환 모델을 구현하고 평가하여, 개인정보 보호 훈련이 기억화를 효과적으로 제거하면서도 높은 모델 유용성을 유지할 수 있음을 검증한다.
실험 결과
연구 질문
- RQ1딥러닝 모델이 의도하지 않은 경우에도 훈련 데이터의 민감한 정보를 얼마나 기억하는가?
- RQ2블랙박스 API 접근만으로도 비밀 정보를 추출할 수 있으며, 그 효율성은 어떠한가?
- RQ3기억화가 훈련 초반에 발생하며, 다양한 모델 아키텍처와 하이퍼파라미터 간에 지속되는가?
- RQ4일반적인 정규화 기법들은 기억화를 줄이는 데 효과적인가, 아니면 근본 원인을 해결하지 못하는가?
- RQ5차별적(private) 훈련이 기억화를 효과적으로 제거하면서도 모델의 유용성을 유지할 수 있는가?
주요 결과
- 비밀 정보의 기억화가 훈련 초반에 발생하며, 과적합되지 않은 모델에서도 지속되므로, 이는 과적합의 부산물이 아님을 시사한다.
- '노출도(exposure)' 지표는 다양한 모델과 데이터셋, 심지어 최신 번역 모델까지도 기억화 정도를 성공적으로 정량화한다.
- 엔론 데이터셋의 신용카드 번호와 같은 비밀 정보는 블랙박스 API 쿼리만으로도 높은 성공률로 추출 가능하다.
- 가중치 감소나 드롭아웃과 같은 일반적인 방어 조치들은 노출도 감소에 실패하여, 기억화에 효과적이지 않음을 시사한다.
- 차별적(private) 훈련은 기억화를 효과적으로 제거하면서도 높은 모델 유용성을 유지할 수 있음을 검증하여, 실용적인 방어 수단임을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.