QUICK REVIEW

[논문 리뷰] High Accuracy and High Fidelity Extraction of Neural Networks

Matthew Jagielski, Nicholas Carlini|arXiv (Cornell University)|2019. 09. 03.

Adversarial Robustness in Machine Learning참고 문헌 57인용 수 55

한 줄 요약

이 논문은 모델 추출을 정확도와 충실도에 초점을 맞춰 분류하고, 학습 기반 공격이 정확도 추출의 효율성을 향상시키며, 직접 가중치 추출에 대한 최초의 실용적 기능상 동등 추출 공격을 도입하고, 대형 생산급 모델에서의 실현 가능성을 입증한다.

ABSTRACT

In a model extraction attack, an adversary steals a copy of a remotely deployed machine learning model, given oracle prediction access. We taxonomize model extraction attacks around two objectives: *accuracy*, i.e., performing well on the underlying learning task, and *fidelity*, i.e., matching the predictions of the remote victim classifier on any input. To extract a high-accuracy model, we develop a learning-based attack exploiting the victim to supervise the training of an extracted model. Through analytical and empirical arguments, we then explain the inherent limitations that prevent any learning-based strategy from extracting a truly high-fidelity model---i.e., extracting a functionally-equivalent model whose predictions are identical to those of the victim model on all possible inputs. Addressing these limitations, we expand on prior work to develop the first practical functionally-equivalent extraction attack for direct extraction (i.e., without training) of a model's weights. We perform experiments both on academic datasets and a state-of-the-art image classifier trained with 1 billion proprietary images. In addition to broadening the scope of model extraction research, our work demonstrates the practicality of model extraction attacks against production-grade systems.

연구 동기 및 목표

모델 추출에서 두 가지 적대적 목표를 동기 부여하고 정의한다: 정확도와 충실도.
현존하는 추출 공격들을 2차원 목표 공간 내에서 체계화한다.
높은 충실도를 달성하기 위한 학습 기반 추출의 한계를 보여준다.
직접 가중치 회수를 위한 실용적 기능상 동등 추출을 개발한다.
학술 데이터세트와 최첨단 생산형 분류기에 대한 공격을 선보인다.

제안 방법

공격 목표와 능력의 분류 체계(정확도, 충실도, 기능상 동등 추출).
피해자 모델을 레이블링 올리로 활용하여 작업 정확도를 최대화하는 학습 기반 추출을 개발한다.
높은 충실도 추출을 위한 학습 기반 전략의 고유한 한계를 입증한다.
입출력 접근으로 2계층 네트워크의 가중치를 복원하는 실용적 기능상 동등 추출 공격을 제안한다.
ImageNet급 모델(WSL)과 표준 데이터세트(SVHN, CIFAR-10)에서 공격을 평가한다.
쿼리 효율성을 개선하기 위해 반지도 학습 및 혼합 방법(회전 손실, MixMatch)을 탐구한다.

실험 결과

연구 질문

RQ1현실적인 쿼리 접근 제약 하에서 모델 추출이 기능상 동등한 충실도에 도달할 수 있는가?
RQ2학습 기반 추출과 충실도 중심 추출이 쿼리 효율성과 확장성 면에서 어떻게 비교되는가?
RQ3높은 충실도를 위한 학습 기반 추출의 근본적인 한계는 무엇이며, 데이터 측 채널 없이 직접 가중치를 회복할 수 있는가?
RQ4라벨이 없는 데이터 및 반지도 학습 기법이 대형 모델에 대한 추출 공격의 실용성에 어떤 영향을 미치는가?
RQ5대규모 독점 데이터로 학습된 생산급 모델이 블랙박스 접근 하에서 실용적 추출에 여전히 취약한가?

주요 결과

학습 기반 추출은 정확도 추출을 향상시키고 이전 방법들보다 쿼리 효율이 높으며 수백만 개의 매개변수까지 규모 확장된다.
라벨이 없는 데이터와 반지도 학습 기법(회전 손실, MixMatch)이 더 적은 쿼리로 추출 성능을 현저히 향상시킨다.
입출력 접근만으로 두 계층 네트워크의 가중치를 직접 회복하는 기능상 동등 추출 공격은 실용적이다.
학습 기반 방법은 고유의 충실도 한계에 직면하며, 실험에서 제어된 비결정성 하에 충실도 상한이 약 ~93%로 나타난다.
250 쿼리의 MixMatch 기반 추출은 라벨링된 쿼리가 훨씬 적은 상황에서 SVHN과 CIFAR-10에서 오라클 정확도에 거의 근접하게 일치시킨다.
본 연구는 생산급 시스템에 대한 모델 추출의 실용성을 입증하고 추출 난이도에 대한 이론적 경계를 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.