QUICK REVIEW

[논문 리뷰] Machine Learning Models that Remember Too Much

Congzheng Song, Thomas Ristenpart|arXiv (Cornell University)|2017. 09. 22.

Adversarial Robustness in Machine Learning참고 문헌 57인용 수 31

한 줄 요약

이 논문은 악성 기계학습 제공자가 훈련 과정에 미묘한 수정을 가함으로써 정확하고 일반화 능력이 뛰어난 모델을 훈련시킬 수 있으며, 이로 인해 민감한 훈련 데이터가 암묵적으로 인코딩되고 泄露될 수 있음을 보여준다. 블랙박스 접근만으로도 적대자는 과적합된 합성 레이블 데이터에 기반해 훈련 데이터의 대부분을 추출할 수 있으며, 이는 MLaaS 파이프라인에서 심각한 개인정보 유출 위험을 드러낸다.

ABSTRACT

Machine learning (ML) is becoming a commodity. Numerous ML frameworks and services are available to data holders who are not ML experts but want to train predictive models on their data. It is important that ML models trained on sensitive inputs (e.g., personal images or documents) not leak too much information about the training data. We consider a malicious ML provider who supplies model-training code to the data holder, does not observe the training, but then obtains white- or black-box access to the resulting model. In this setting, we design and implement practical algorithms, some of them very similar to standard ML techniques such as regularization and data augmentation, that "memorize" information about the training dataset in the model yet the model is as accurate and predictive as a conventionally trained model. We then explain how the adversary can extract memorized information from the model. We evaluate our techniques on standard ML tasks for image classification (CIFAR10), face recognition (LFW and FaceScrub), and text analysis (20 Newsgroups and IMDB). In all cases, we show how our algorithms create models that have high predictive power yet allow accurate extraction of subsets of their training data.

연구 동기 및 목표

악성 기계학습 제공자가 예측 성능을 떨어뜨리지 않은 채 민감한 훈련 데이터를 모델에 내재화할 수 있는지 조사하기 위해.
미세한 수정이지만 정당해 보이는 방식으로 훈련된 모델이 여전히 훈련 데이터에 대한 중요한 정보를 泄露할 수 있음을 입증하기 위해.
화이트박스 및 블랙박스 적대자가 실용적이고 침투성이 높은 기법을 사용해 기억된 훈련 데이터를 추출할 수 있음을 보여주기 위해.
사용자가 검증되지 않은 훈련 코드를 신뢰하는 MLaaS 및 제3자 기반 기계학습 프레임워크에서 발생하는 개인정보 유출 위험을 부각하기 위해.
기계학습 훈련에서 최소 권한 원칙을 홍보하여, 모델이 반드시 필요한 것만 학습하도록 보장하기 위해.

제안 방법

저자들은 실제 훈련 데이터의 비밀 비트를 합성 입력에 레이블로 부여하여 훈련 데이터를 확장하는 능력 남용 공격을 제안한다. 이로 인해 모델은 이 정보를 기억하게 된다.
화이트박스 환경에서는 모델 파라미터의 가장 낮은 비트에 비밀을 직접 삽입하거나, 정규화를 사용해 파라미터와 민감한 데이터를 연관시킨다.
블랙박스 추출을 위해선, 비밀 레이블이 부여된 합성 입력에 대한 모델의 과적합 현상을 활용하며, 입력-출력 쿼리를 통해 데이터 재구성을 수행한다.
이 방법은 정규화 및 데이터 증강과 같은 표준 기계학습 기법을 악성 방식으로 활용하여, 최종 사용자에게는 양성 훈련과 구분이 불가능하다.
이 방법은 CIFAR10, LFW, FaceScrub, 20 Newsgroups, IMDB 등 여러 벤치마크에서 평가되었으며, 주요 작업 정확도에 영향을 주지 않았다.
추출은 합성 입력을 모델에 쿼리하고 출력 레이블을 관찰함으로써 수행되며, 이는 내장된 비밀 정보를 드러낸다.

실험 결과

연구 질문

RQ1악성 기계학습 제공자가 높은 정확도를 유지하면서도 민감한 훈련 데이터를 내재하고 泄露할 수 있는가?
RQ2합성 비밀 레이블이 부여된 데이터로 훈련된 모델에 블랙박스 접근만으로도 적대자가 얼마나 많은 훈련 데이터를 추출할 수 있는가?
RQ3정규화 및 데이터 증강과 같은 표준 기계학습 기법이 악성으로 조작될 경우, 어떻게 데이터 유출의 수단이 될 수 있는가?
RQ4능력 남용 기법으로 훈련된 모델에서 모델의 유용성과 데이터 泄露 사이의 상호 교환 관계는 어떠한가?
RQ5모델 압축 또는 개인정보 보호 기법이 이러한 은밀한 데이터 유출을 완화할 수 있는가?

주요 결과

저자들은 정확도에 영향을 주지 않으면서 10,000건의 문서 훈련 코퍼스 중 70%를 泄露하는 텍스트 분류기를 성공적으로 구축했다.
블랙박스 환경에서 이진 성별 분류기는 내장된 레이블이 있는 합성 입력에 대한 쿼리를 통해 비밀 훈련 데이터를 정확하게 재구성할 수 있었다.
합성 데이터 증강과 비밀 레이블을 사용해 훈련된 모델는 주요 작업에서 거의 완벽한 정확도를 달성했으며, 동시에 합성 입력에 과적합되어 데이터 추출이 가능했다.
가장 낮은 비트 인코딩을 사용한 화이트박스 공격은, 모델가 일반적인 것과 구별되지 않는 한계에서조차도 훈련 데이터를 정밀하게 재구성할 수 있었다.
악성 훈련 기법은 정규화 및 데이터 증강과 같은 표준 기계학습 관행을 모방함으로써 데이터 소유자에게도 탐지되지 않았다.
결과적으로, 강력한 일반화 및 정확도를 보이더라도 악성 의도로 훈련된 모델은 여전히 민감한 정보를 泄露할 수 있음을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.