QUICK REVIEW

[논문 리뷰] Regularizing Class-wise Predictions via Self-knowledge Distillation

Sukmin Yun, Jongjin Park|arXiv (Cornell University)|2020. 03. 31.

Domain Adaptation and Few-Shot Learning참고 문헌 54인용 수 30

한 줄 요약

클래스별 자기 지식 증류(CS-KD)를 도입한 정규화 기법으로, 같은 클래스 샘플의 예측 분포를 같은 네트워크 내에서 정렬하여 일반화 및 보정(calibration)을 향상시킨다.

ABSTRACT

Deep neural networks with millions of parameters may suffer from poor generalization due to overfitting. To mitigate the issue, we propose a new regularization method that penalizes the predictive distribution between similar samples. In particular, we distill the predictive distribution between different samples of the same label during training. This results in regularizing the dark knowledge (i.e., the knowledge on wrong predictions) of a single network (i.e., a self-knowledge distillation) by forcing it to produce more meaningful and consistent predictions in a class-wise manner. Consequently, it mitigates overconfident predictions and reduces intra-class variations. Our experimental results on various image classification tasks demonstrate that the simple yet powerful method can significantly improve not only the generalization ability but also the calibration performance of modern convolutional neural networks.

연구 동기 및 목표

대형 신경망에서 과적합을 억제하기 위한 정규화의 동기를 제시한다.
단일 네트워크 내의 다크 지식을 규제하기 위해 CS-KD를 제안한다.
클래스별 증류가 intra-class 변동을 줄이고 보정을 향상시킨다는 것을 보인다.
CNN을 이용한 CIFAR-100, TinyImageNet 및 미세구조 데이터셋에서 CS-KD를 평가한다.

제안 방법

같은 라벨을 가진 두 샘플의 예측 분포를 맞추는 클래스-와이즈 KL 발산 손실을 정의한다.
그래디언트를 안정화하기 위해 고정된 네트워크 매개변수 사본을 사용한다(자기 증류).
원래 샘플에 대한 교차 엔트로피와 CS-KD를 결합하고, 온도 T와 가중치 lambda_cls로 스케일링한다.
SGD와 표준 데이터 증강으로 끝에서 끝으로 학습한다; 온도와 lambda_cls는 하이퍼파라미터이다.
원본 샘플과 증강 샘플 간의 KL 항을 더하는 보강 입력 손실 CS-KD-E로 선택적으로 확장한다.

실험 결과

연구 질문

RQ1단일 모델 내 같은 클래스 샘플 간 예측의 일관성을 강제하는 것이 일반화를 향상시킬 수 있는가?
RQ2CS-KD가 클래스 내 예측 분산을 감소시키고 보정을 향상시키는가?
RQ3다양한 데이터셋에서 CS-KD가 다른 출력 규제 및 자기 증류 방법과 비교하여 어떤 성능을 보이는가?
RQ4CS-KD가 Mixup 및 KD를 보완하여 성능을 더욱 향상시킬 수 있는가?
RQ5다중 아키텍처에 걸쳐 ImageNet과 같은 대규모 데이터셋에 CS-KD가 확장 가능한가?

주요 결과

CS-KD는 여러 데이터셋에 걸쳐 교차 엔트로피 및 다른 규제들보다 일관되게 top-1 오류를 감소시킨다.
CIFAR-100에서 CS-KD는 ResNet-18에 대해 교차 엔트로피로 24.71% 대비 21.99% top-1 오차를 달성한다.
CS-KD는 더 낮은 ECE 값과 더 신뢰할 수 있는 확신 추정으로 보정을 향상시킨다.
Mixup 또는 KD와의 결합은 추가 이득을 제공한다(예: Mixup + CS-KD가 CIFAR-100에서 top-1 오차를 20.40%로 감소).
CS-KD는 특성 공간의 클래스 내 변동을 줄이고 더 의미 있는 예측을 산출하며, 향상된 R@1 및 t-SNE 시각화로 확인된다.
ImageNet에서 CS-KD는 ResNet-50, ResNet-101, ResNeXt-101-32x4d에 걸쳐 일관된 top-1 개선을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.