QUICK REVIEW

[논문 리뷰] Data-Free Adversarial Distillation

Gongfan Fang, Jie Song|arXiv (Cornell University)|2019. 12. 23.

Adversarial Robustness in Machine Learning참고 문헌 39인용 수 103

한 줄 요약

본 논문은 Data-Free Adversarial Distillation (DFAD)을 소개한다. 이는 generator와 teacher-student discriminator를 공동으로 활용하여 모델 차이에 대한 최적화 가능한 상한을 최소화하는 데이터 프리 트레이닝 신호를 학생 모델에 제공하는 두 단계의 적대적 프레임워크이다. 이것은 시맨틱 세그멘테이션으로 확장되며 데이터 기반 방법과 경쟁력 있는 성능을 달성한다.

ABSTRACT

Knowledge Distillation (KD) has made remarkable progress in the last few years and become a popular paradigm for model compression and knowledge transfer. However, almost all existing KD algorithms are data-driven, i.e., relying on a large amount of original training data or alternative data, which is usually unavailable in real-world scenarios. In this paper, we devote ourselves to this challenging problem and propose a novel adversarial distillation mechanism to craft a compact student model without any real-world data. We introduce a model discrepancy to quantificationally measure the difference between student and teacher models and construct an optimizable upper bound. In our work, the student and the teacher jointly act the role of the discriminator to reduce this discrepancy, when a generator adversarially produces some "hard samples" to enlarge it. Extensive experiments demonstrate that the proposed data-free method yields comparable performance to existing data-driven methods. More strikingly, our approach can be directly extended to semantic segmentation, which is more complicated than classification, and our approach achieves state-of-the-art results. Code and pretrained models are available at https://github.com/VainF/Data-Free-Adversarial-Distillation.

연구 동기 및 목표

실제 데이터가 이용 불가능한 현실 세계 시나리오에서 지식 증류의 필요성을 제시한다.
실제 데이터 없이 교사-학생 모델 간의 차이를 근사하고 최소화하는 데이터 프리 프레임워크를 제안한다.
학생의 성능 향상을 위해 계속해서 어려운 샘플을 생성하는 적대적 학습 메커니즘을 개발한다.
데이터-프리 증류를 시맨틱 세그멘테이션으로 확장하고 경쟁력 있는 성능을 보여준다.

제안 방법

교사 T와 학생 S 사이의 모델 차이를 D(T,S)로 정의하고 이를 학습 샘플을 생성하는 생성기 G로 근사한다.
두 단계의 적대적 과정을 사용한다: 모방 단계(imitation stage)(G로부터 얻은 샘플에 대해 MAE 손실로 차이를 최소화)와 생성 단계(generation stage)(안정적인 log-MAE 목적을 최적화하여 G를 통해 차이를 최대화).
실제 데이터가 없을 때 안정적인 그래디언트를 보장하고 생성기 붕괴를 방지하기 위해 MAE를 차이 손실로 채택한다.
생성된 샘플을 hard와 easy 타입으로 나누어 차이를 한정하고 생성기가 도전적이고 정보성이 있는 샘플을 생성하도록 유도한다.
생성된 샘플에서 S가 T를 모방하도록 반복적으로 업데이트하고, G를 더 어려운 샘플을 생성하도록 업데이트하여 S가 기능적으로 T와 구분되지 않게 되는 것을 목표로 한다.
안정성 가이드라인을 제공한다(예: imitation 단계를 k=5로 고정, segmentation에 L_GEN-ADA 사용)하여 견고한 학습을 보장한다.

실험 결과

연구 질문

RQ1데이터 프리 증류 프레임워크가 데이터 기반 KD 방법의 성능에 필적할 수 있는가(분류 및 세그멘테이션 작업에서)?
RQ2실제 데이터 없이 교사와 학생 모델 간의 차이를 어떻게 정량화하고 최소화할 수 있는가?
RQ3원본 데이터가 없는 상황에서 적대적으로 생성된 샘플을 활용하여 경쟁력 있는 학생 모델을 효과적으로 학습시킬 수 있는가?
RQ4제안된 프레임워크가 세그멘테이션 작업으로 확장되어 경쟁력 있는 결과를 보이는가?

주요 결과

제안된 DFAD 프레임워크는 분류 데이터셋에서 데이터 기반 증류 기준선과 비교해 경쟁력 있는 성능을 보인다.
데이터 프리 방법들 중에서 이 방법은 여러 분류 벤치마크에서 가장 높은 정확도를 달성한다(분류 결과가 다른 데이터 프리 방법들보다 우수하다).
이 방법은 시맨틱 세그멘테이션으로 자연스럽게 확장되며 CamVid와 NYUv2에서 경쟁력 있는 mIoU 점수를 달성하고 다른 데이터 프리 방법들을 능가한다.
생성된 샘플은 다양성을 유지하여 모드 붕괴를 해결하고 학습 중에 정보적 감독을 제공한다.
MAE 기반 차이 손실은 안정적인 그래디언트를 제공하고 생성기에 대해 다른 손실 선택지들(e.g., MSE, KLD)보다 더 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.