QUICK REVIEW

[논문 리뷰] Zero-Shot Knowledge Distillation in Deep Networks

Gaurav Kumar Nayak, Konda Reddy Mopuri|NOT FOUND REPOSITORY (Indian Institute of Science Bangalore)|2019. 05. 20.

Machine Learning and Data Classification인용 수 85

한 줄 요약

이 논문은 Dirichlet 모델링된 소프트맥스 공간에서 교사 모델로부터 Data Impressions를 합성하는 데이터 프리 지식 증류 프레임워크를 제시합니다. 이는 학습 데이터 없이 KD를 가능하게 하며 MNIST, Fashion-MNIST, CIFAR-10에서 경쟁력 있는 성능을 달성합니다.

ABSTRACT

Knowledge distillation deals with the problem of training a smaller model (Student) from a high capacity source model (Teacher) so as to retain most of its performance. Existing approaches use either the training data or meta-data extracted from it in order to train the Student. However, accessing the dataset on which the Teacher has been trained may not always be feasible if the dataset is very large or it poses privacy or safety concerns (e.g., bio-metric or medical data). Hence, in this paper, we propose a novel data-free method to train the Student from the Teacher. Without even using any meta-data, we synthesize the Data Impressions from the complex Teacher model and utilize these as surrogates for the original training data samples to transfer its learning to Student via knowledge distillation. We, therefore, dub our method "Zero-Shot Knowledge Distillation" and demonstrate that our framework results in competitive generalization performance as achieved by distillation using the actual training data samples on multiple benchmark datasets.

연구 동기 및 목표

학습 데이터가 이용 불가하거나 제한될 때 지식 증류의 데이터 접근성과 프라이버시 문제를 동기화하고 해결한다.
Dirichlet 분포로 소프트맥스 공간을 모델링하여 교사로부터 의사 샘플(Data Impressions)을 합성하는 데이터 프리(KD) 파이프라인을 제안한다.
교사로부터 클래스 유사도 사전 정보를 도출하여 데이터 합성을 안내하고 전이(Transfer)를 개선한다.
여러 데이터셋에서 ZSKD의 효과를 입증하고 데이터 의존적 기준선 및 메타데이터 기반 접근법과 비교한다.

제안 방법

교사의 소프트맥스 출력을 각 클래스마다 Dirichlet 분포로 모델링하여 클래스 간 유사성을 포착한다.
교사의 최종 계층과 전 계층 가중치에서 클래스 유사도 행렬을 계산하여 Dirichlet 농도 매개변수를 형성한다.
Dir(K, alpha^k)에서 각 클래스 k에 대해 소프트맥스 벡터를 샘플링하고 샘플링된 소프트맥스와의 교차 엔트로피를 최소화하도록 입력을 최적화하여 대응하는 Data Impressions를 만든다.
전송 세트(Data Impressions)를 생성하고 교사와 학생 간의 KD 손실만을 사용하여 지식 증류를 수행한다.
Dirichlet 농도와 Data Impressions의 다양성을 제어하기 위해 스케일링 인수 beta를 사용한다.
성능 향상을 위해 증류 중에 Data Impressions를 선택적으로 증강한다.

실험 결과

연구 질문

RQ1학습 데이터나 데이터에서 파생된 메타데이터에 전혀 접근하지 않고도 지식 증류를 효과적으로 수행할 수 있는가?
RQ2교사의 소프트맥스 공간에서 합성된 의사 샘플(Data Impressions)이 학생을 학습시키기 위한 실행 가능한 전이 세트가 될 수 있는가?
RQ3소프트맥스 공간의 Dirichlet 기반 모델링이 클래스 간 유사성을 얼마나 잘 포착하여 데이터 합성을 안내하는가?
RQ4제로샷 KD가 표준 벤치마크에서 데이터 의존 KD 및 데이터 프리 기준선과 어떻게 비교되는가?

주요 결과

ZSKD는 원래의 학습 데이터를 사용하지 않으면서 MNIST, Fashion-MNIST, CIFAR-10에서 데이터 기반 KD와 비슷한 일반화 성능을 달성한다.
MNIST, Fashion-MNIST, CIFAR-10 전반에서 Data Impressions를 사용하는 ZSKD가 기존 데이터 프리 및 소량 데이터 방법을 능가하고 여러 설정에서 전체 데이터가 있는 KD의 성능에 근접한다.
학습된 Class Similarity Matrix에 의해 안내되는 Dirichlet 기반 소프트맥스 모델링은 다양하면서도 관련성 높은 의사 샘플을 가능하게 하여 학생에게 지식을 효과적으로 전달한다.
세트 크기를 늘리면 일반적으로 성능이 향상되지만 증가 폭은 점차 감소하고, 더 단순한 데이터셋은 경쟁력 있는 결과를 얻기 위해 필요한 인상 수가 더 적다.
Data Impressions는 실제 데이터와 시각적으로 뚜렷하게 다르게 보이기도 하지만 여전히 의미 있는 KD를 유도하고 때로는 인식 가능한 객체 패턴을 포착하기도 한다.
Beta로 스케일된 Dirichlet 매개변수의 혼합(Beta 값 0.1 및 1.0)을 사용하면 실제로 다양성과 성능이 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.