[논문 리뷰] Contrastive Model Inversion for Data-Free Knowledge Distillation
CMI(대조적 모델 반전)을 도입하여 데이터-프리 지식 증류에서 모드 붕괴를 완화하고, 대조적 목표를 통해 데이터 다양성을 명시적으로 모델링하여 다운스트림 KD 성능을 향상시킨다.
Model inversion, whose goal is to recover training data from a pre-trained model, has been recently proved feasible. However, existing inversion methods usually suffer from the mode collapse problem, where the synthesized instances are highly similar to each other and thus show limited effectiveness for downstream tasks, such as knowledge distillation. In this paper, we propose Contrastive Model Inversion~(CMI), where the data diversity is explicitly modeled as an optimizable objective, to alleviate the mode collapse issue. Our main observation is that, under the constraint of the same amount of data, higher data diversity usually indicates stronger instance discrimination. To this end, we introduce in CMI a contrastive learning objective that encourages the synthesizing instances to be distinguishable from the already synthesized ones in previous batches. Experiments of pre-trained models on CIFAR-10, CIFAR-100, and Tiny-ImageNet demonstrate that CMI not only generates more visually plausible instances than the state of the arts, but also achieves significantly superior performance when the generated data are used for knowledge distillation. Code is available at \url{https://github.com/zju-vipa/DataFree}.
연구 동기 및 목표
- 원본 학습 데이터가 사용 불가능한 경우 데이터-프리 지식 증류를 동기 부여한다.
- 인스턴스 구분 프레임워크에서 데이터 다양성을 정의한다.
- 합성 샘플 간의 다양성을 촉진하기 위한 대조 학습 목표를 개발한다.
- 케이스별 데이터 반전을 위해 제너레이터, 메모리 은행, 인스턴스 판별기를 통합한다.
- 표준 벤치마크에서 합성 데이터 품질과 KD 성능의 향상을 입증한다.
제안 방법
- 데이터 다양성을 데이터 쌍 간의 기대된 인스턴스 구별 거리로 정의한다.
- 고정된 교사 f_t 위에 학습 가능한 인스턴스 판별기 h를 사용하여 표현 간 코사인 유사도를 계산한다.
- 합성 및 메모리 은행 샘플 간 독창성을 최대화하기 위해 대조 손실 L_cr을 채택한다.
- 실제 데이터에 대한 현실성 및 분포적 유사성을 유지하기 위해 전통적인 역전 손실 L_inv를 도입한다.
- 케이스별 합성: 타임스탬프마다 제너레이터 g를 재초기화하고 잠재 코드 z와 매개변수를 최적화하며, 다양성을 위해 메모리 은행 B를 활용한다.
- L_cr을 L_inv와 결합한 공동 목표를 설정하고, 필요에 따라 경계 샘플을 강조하기 위한 결정적 적대 증류 항 L_d-adv를 포함한다.
실험 결과
연구 질문
- RQ1대조적 목적이 합성 샘플 간 다양성을 촉진함으로써 데이터-프리 KD에서 모드 붕괴를 완화할 수 있는가?
- RQ2인스턴스 구별을 통해 데이터 다양성을 명시적으로 모델링하는 것이 합성 데이터를 사용한 KD 성능을 향상시키는가?
- RQ3CMI가 실제성과 다양성의 균형을 어떻게 맞춰 서로 다른 데이터셋과 아키텍처에서 KD에 유용한 데이터를 생성하는가?
- RQ4제조자 역할, 메모리 은행, 인스턴스 판별기 같은 설계 선택이 데이터 다양성과 KD 결과에 미치는 영향은 무엇인가?
주요 결과
| 데이터셋 | 교사 | 학생 | 정확도 | T. | S. | DAFL | ZSKT | ADI | DFQ | LS-GDFD | 당사 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| CIFAR-10 | resnet-34 | resnet-18 | 95.70 | 95.20 | 92.22 | 93.32* | 93.26 | 94.61 | 95.02 | 94.84 | |
| CIFAR-10 (second model) | vgg-11 | resnet-18 | 92.25 | 95.20 | 81.10* | 89.46* | 90.36 | 90.84 | N/A | 91.13 | |
| Tiny-ImageNet | resnet-34 | resnet-18 | 66.44 | 64.87 | N/A | N/A | N/A | 63.73 | N/A | 64.01 | |
| CIFAR-100 | resnet-34 | resnet-18 | 78.05 | 77.10 | 74.47 | 67.74* | 61.32* | 77.01 | 77.02 | 77.04 | |
| CIFAR-100 | vgg-11 | resnet-18 | 71.32 | 77.10 | 57.29* | 34.72* | 54.13* | 68.32* | N/A | 70.56 | |
| CIFAR-100 | wrn-40-2 | wrn-16-1 | 75.83 | 65.31 | 22.50* | 30.15* | 53.77* | 54.77* | N/A | 57.91 | |
| CIFAR-100 | wrn-40-2 | wrn-40-1 | 75.83 | 72.19 | 34.66* | 29.73* | 61.33* | 61.92* | N/A | 68.88 | |
| CIFAR-100 | wrn-40-2 | wrn-16-2 | 75.83 | 73.56 | 40.00* | 28.44* | 61.34* | 59.01* | N/A | 68.75 |
- CMI는 강력한 기준선보다 시각적으로 더 타당하고 다양한 합성 데이터를 생성한다.
- CIFAR-10, CIFAR-100, Tiny-ImageNet에서 CMI는 여러 데이터-프리 방법과 비교해 우수한 KD 성능을 달성한다.
- 구성요소 제거 실험은 대조 손실이나 제너레이터를 제거하면 성능이 저하되어 인스턴스 구별 및 픽셀 규제의 중요성을 강조한다.
- 대조 가중치 alpha_cr의 더 큰 값이 KD 성능과 데이터 분포 품질을 향상시키며(특히 얕은 특징에서 FID 점수 감소).
- 비선형 인스턴스 판별기가 합성 데이터로 KD를 지원하는 데 있어 선형 또는 판별자 없는 것보다 우수하다.
- 메모리 은행 및 케이스별 제너레이터 합성으로 CMI는 다수의 교사-학생 쌍에서 여러 기준선보다 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.