Skip to main content
QUICK REVIEW

[논문 리뷰] Overlearning Reveals Sensitive Attributes

Congzheng Song, Vitaly Shmatikov|arXiv (Cornell University)|2019. 05. 28.
Adversarial Robustness in Machine Learning참고 문헌 29인용 수 55
한 줄 요약

논문은 간단한 목표를 위해 학습된 모델이 민감한 속성(예: 인종이나 신원)을 암묵적으로 학습할 수 있어 개인정보 누출과 모델 재목적화를 가능하게 하며 차단이 종종 이러한 과잉학습(overlearning)을 예방하지 못한다는 것을 보여준다.

ABSTRACT

"Overlearning" means that a model trained for a seemingly simple objective implicitly learns to recognize attributes and concepts that are (1) not part of the learning objective, and (2) sensitive from a privacy or bias perspective. For example, a binary gender classifier of facial images also learns to recognize races extemdash even races that are not represented in the training data extemdash and identities. We demonstrate overlearning in several vision and NLP models and analyze its harmful consequences. First, inference-time representations of an overlearned model reveal sensitive attributes of the input, breaking privacy protections such as model partitioning. Second, an overlearned model can be "re-purposed" for a different, privacy-violating task even in the absence of the original training data. We show that overlearning is intrinsic for some tasks and cannot be prevented by censoring unwanted attributes. Finally, we investigate where, when, and why overlearning happens during model training.

연구 동기 및 목표

  • 감독 딥 모델이 학습 목표에 명시되지 않은 민감한 속성을 학습한다는 것을 Demonstrate한다.
  • 추론 시간 표현으로 인한 개인정보 누출을 계량한다.
  • 과도하게 학습된 표현이 프라이버시를 침해하는 작업으로 모델을 재목적화하는 것을 보여준다.
  • 차단 및 비차단 기법의 효과를 조사한다.
  • 학습 중 과잉학습이 발생하는 위치와 이유를 탐구한다.

제안 방법

  • 표현 z = E(x)가 l 레이어에서 되는 감독 M = C ◦ E를 모델링한다.
  • 관측된 표현에서 민감한 속성을 예측하기 위해 공격 모델을 학습시켜 추론 시 누출을 평가한다.
  • z에서 민감한 속성을 억제하기 위해 차단 방법(적대적 학습 및 정보 이론적 접근)을 적용한다.
  • 차단된 표현에서 정보를 추출하는 비차단화 기법을 제안한다.
  • 전이된 특징 추출기를 소량의 Dtransfer에 대해 미세조정하여 민감한 속성을 예측하는 재목적화를 시연한다.
  • 전이 학습 및 내부 레이어 차단을 사용해 차단의 견고성을 연구한다.
  • 과잉학습이 어디에서 발생하는지 이해하기 위해 계층별 표현 유사성(CKA)을 분석한다.

실험 결과

연구 질문

  • RQ1훈련된 모델이 추론 시 내부 표현을 통해 민감한 속성을 드러낼 수 있는가?
  • RQ2차단된 표현이 민감한 속성의 누출을 예방하는 데 효과적인가?
  • RQ3과잉학습된 표현이 학습 데이터가 거의 없거나 전혀 없는 민감한 속성을 예측하는 데 재목적화될 수 있는가?
  • RQ4네트워크의 어느 계층에서 과잉학습이 발생하고 왜 학습 과정에서 나타나는가?

주요 결과

  • 과잉학습 모델의 추론 시 표현은 여러 데이터셋에서 무작위 추정치보다 민감한 속성을 잘 누출한다.
  • 차단(적대적이거나 정보 이론적 차단)은 누출을 줄이지만 제거하지 못하고 주요 작업 성능을 해칠 수 있으며 일부 정보는 여전히 누출 가능하다.
  • 과잉학습된 표현은 민감한 속성을 예측하기 위한 모델 재목적화를 가능하게 하며, 작은 전이 데이터 세트에서 처음부터 학습한 모델보다 종종 더 나은 성능을 보인다.
  • 하위 레이어 차단은 재목적화를 차단할 수 있지만 공격자는 다른 레이어를 여전히 활용할 수 있다; 견고한 보호를 위해 내부 레이어 차단이 필요하다.
  • 일부 작업에서 과잉학습은 내재적이며, 학습 데이터에 없는 속성조차도 회복될 수 있어 간단한 차단 만으로는 프라이버시를 보호하기 어렵다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.