Skip to main content
QUICK REVIEW

[논문 리뷰] GAMIN: An Adversarial Approach to Black-Box Model Inversion

Ulrich Aïvodji, Sébastien Gambs|arXiv (Cornell University)|2019. 09. 26.
Adversarial Robustness in Machine Learning참고 문헌 48인용 수 26
한 줄 요약

GAMIN은 딥 뉴럴 네트워크에서 훈련 데이터를 재구성하기 위해 생성적 적대적 네트워크를 사용하는 새로운 블랙박스 모델 역공학 공격 기법을 제안한다. 이 공격는 대상 모델의 아키텍처에 대한 사전 지식 없이도 작동하며, 높은 정밀도의 재구성을 달성한다. MNIST 레이블의 60%에서 식별 가능한 숫자를 재구성하고, 피부 분류 모델에서 얼굴 특징을 추출할 수 있다. 계산 비용이 매우 낮고, 쿼리 기반의 설정에서 효율적으로 작동한다.

ABSTRACT

Recent works have demonstrated that machine learning models are vulnerable to model inversion attacks, which lead to the exposure of sensitive information contained in their training dataset. While some model inversion attacks have been developed in the past in the black-box attack setting, in which the adversary does not have direct access to the structure of the model, few of these have been conducted so far against complex models such as deep neural networks. In this paper, we introduce GAMIN (for Generative Adversarial Model INversion), a new black-box model inversion attack framework achieving significant results even against deep models such as convolutional neural networks at a reasonable computing cost. GAMIN is based on the continuous training of a surrogate model for the target model under attack and a generator whose objective is to generate inputs resembling those used to train the target model. The attack was validated against various neural networks used as image classifiers. In particular, when attacking models trained on the MNIST dataset, GAMIN is able to extract recognizable digits for up to 60% of labels produced by the target. Attacks against skin classification models trained on the pilot parliament dataset also demonstrated the capacity to extract recognizable features from the targets.

연구 동기 및 목표

  • 딥 뉴럴 네트워크와 같은 복잡한 모델에 대한 효과적인 블랙박스 모델 역공학 공격 문제를 해결하기 위해.
  • 대상 모델의 아키텍처나 훈련 데이터 분포에 대한 사전 지식 없이 작동하는 방법을 개발하기 위해.
  • 기존 기울기 기반 접근 방식에 비해 블랙박스 모델 역공학의 계산 비용을 줄이기 위해.
  • MLP와 컨볼루션 신경망을 포함한 다양한 모델 아키텍처에서 공격의 효과성을 평가하기 위해.
  • 기계 학습 시스템에서의 개인정보 泄露에 대한 모델 역공학의 영향을 탐색하기 위해.

제안 방법

  • 공격는 대상 모델의 결정 경계를 연속적인 쿼리 기반 학습을 통해 근사하기 위해, 생성기와 병행하여 훈련되는 서rogate 모델을 사용한다.
  • 생성기는 GAN 유사한 적대적 과정을 통해 작동하며, 특정 레이블에 대해 대상 모델의 신뢰도 점수를 최대화하는 입력을 생성하도록 최적화된다.
  • 서rogate 모델은 대상 모델에 대한 쿼리를 통해 업데이트되며, 아키텍처 지식 없이도 그 출력 행동을 모방하도록 학습된다.
  • 생성기와 서rogate 모델은 종단 간(end-to-end) 방식으로 함께 훈련되며, 생성기는 입력 재구성 정밀도를 최적화한다.
  • 이 방법은 대상 모델과의 쿼리 기반 상호작용에 의존하므로, 실제 블랙박스 시스템에 적용 가능하다.
  • 이 프레임워크는 모델 유형에 관계없이 적용 가능하며, 방정정식 해결이나 모델 내부 구조를 알 필요가 없다.

실험 결과

연구 질문

  • RQ1대상 모델의 아키텍처에 대한 지식 없이도 블랙박스 모델 역공학 공격가 훈련 데이터를 고정밀도로 재구성할 수 있는가?
  • RQ2MLP와 컨볼루션 신경망과 같은 다양한 모델 유형에서 공격 성능는 어떻게 달라지는가?
  • RQ3기존 기울기 기반 또는 방정정식 해결 접근 방식에 비해 이 공격의 계산 비용은 얼마나 되는가?
  • RQ4얼굴이나 숫자 이미지와 같은 민감한 데이터에서 식별 가능한 특징을 얼마나 잘 재구성할 수 있는가?
  • RQ5아키텍처의 복잡성과 결정 경계의 추상화 정도는 모델 역공학 공격의 성공에 어떤 영향을 미치는가?

주요 결과

  • MNIST 데이터셋에 훈련된 모델을 공격할 때, GAMIN은 최대 60%의 경우에서 식별 가능한 숫자를 재구성하는 데 성공했다.
  • 공격는 피부 분류 모델에서 파ilot 의회 데이터셋으로 훈련된 모델로부터 식별 가능한 얼굴 특징을 추출하는 데 성공했다.
  • 기존 방법이 추정한 50~80일에 비해, MLP에서 공격는 약 6시간으로 계산 비용을 크게 절감했다.
  • 컨볼루션 신경망은 결정 경계의 추상화와 흐림으로 인해 역공학에 더 강건한 것으로 밝혀졌다.
  • 이 방법은 아키텍처나 데이터 분포 가정 없이도 효과적으로 작동하는 블랙박스, 아키텍처 무관 설정에서 작동한다.
  • 결과적으로, 공격 성공을 측정하는 표준 지표가 재구성 품질을 신뢰성 있게 예측하지 못할 수 있음을 시사하며, 더 세밀한 평가 기준이 필요함을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.