QUICK REVIEW

[논문 리뷰] Self-Knowledge Distillation: A Simple Way for Better Generalization

Kyungyul Kim, Byeongmoon Ji|arXiv (Cornell University)|2020. 06. 22.

Advanced Neural Network Applications참고 문헌 36인용 수 40

한 줄 요약

이 논문은 자기 자신에 대한 지식을 점진적으로 희석시켜 하드 one-hot 레이블을 부드럽게 함으로써 딥 네ural 네트워크의 일반화 성능을 향상시키는 정규화 방법인 Self-Knowledge Distillation (Self-KD)을 제안한다. 이 방법은 상태의 기준 성능을 달성하며, IWSLT15 영어-독일어 번역 과제에서 BLEU 점수 30.0과 독일어-영어 번역 과제에서 BLEU 점수 36.2를 기록한다.

ABSTRACT

The generalization capability of deep neural networks has been substantially improved by applying a wide spectrum of regularization methods, e.g., restricting function space, injecting randomness during training, augmenting data, etc. In this work, we propose a simple yet effective regularization method named self-knowledge distillation (Self-KD), which progressively distills a model's own knowledge to soften hard targets (i.e., one-hot vectors) during training. Hence, it can be interpreted within a framework of knowledge distillation as a student becomes a teacher itself. The proposed method is applicable to any supervised learning tasks with hard targets and can be easily combined with existing regularization methods to further enhance the generalization performance. Furthermore, we show that Self-KD achieves not only better accuracy, but also provides high quality of confidence estimates. Extensive experimental results on three different tasks, image classification, object detection, and machine translation, demonstrate that our method consistently improves the performance of the state-of-the-art baselines, and especially, it achieves state-of-the-art BLEU score of 30.0 and 36.2 on IWSLT15 English-to-German and German-to-English tasks, respectively.

연구 동기 및 목표

하드 타겟을 사용하는 지도 학습에서 딥 네ural 네트워크의 일반화 능력을 향상시키기 위해.
외부 교사가 필요 없이도 간단하면서도 효과적인 정규화 방법을 개발하기 위해.
다양한 기계 학습 과제에서 향상된 정확도와 함께 고품질의 신뢰도 추정치를 제공하기 위해.
이미지 분류, 객체 검출, 기계 번역과 같은 다양한 과제에서 일관된 성능 향상을 입증하기 위해.

제안 방법

Self-KD는 모델가 학생이자 교사로 기능하는 지식 희석을 적용하여, 훈련 중 손실를 개선하기 위해 자신의 소프트 예측을 활용한다.
이 방법은 모델의 자체 출력 확률을 타겟 분포로 활용하여 하드 one-hot 타겟을 점진적으로 부드럽게 한다.
이미 존재하는 정규화 기법과 원활하게 통합되어, 모델의 자체 예측에서 유래한 지식 희석을 통해 그 효과를 향상시킨다.
희석 과정은 훈련 중 반복적으로 적용되어 모델이 내부 지식 표현을 개선할 수 있도록 한다.
부드러운 확률 분포를 장려하기 위해 온도 조절된 교차 엔트로피 손실을 사용하여 일반화 능력을 향상시킨다.

실험 결과

연구 질문

RQ1모델가 자신의 예측에서 지식을 희석시킴으로써 스스로의 일반화 능력을 향상시킬 수 있는가?
RQ2소프트 타겟을 사용한 자기 희석이 기존 훈련 방식에 비해 더 나은 성능과 더 신뢰할 수 있는 신뢰도 추정치를 제공하는가?
RQ3Self-KD는 기존의 정규화 방법과 효과적으로 조합되어 모델 성능을 추가로 향상시킬 수 있는가?
RQ4Self-KD는 이미지 분류, 객체 검출, 기계 번역과 같은 다양한 과제에서 어떻게 성능을 발휘하는가?

주요 결과

Self-KD는 IWSLT15 영어-독일어 번역 과제에서 BLEU 점수 30.0과 독일어-영어 번역 과제에서 BLEU 점수 36.2를 기록하여 최신 기준 성능을 달성했다.
이 방법은 이미지 분류, 객체 검출, 기계 번역 과제에서 최신 기준 기반 모델의 성능을 일관되게 향상시켰다.
기존의 정규화 기법과 함께 사용되더라도 Self-KD는 표준 훈련을 초월해 모델의 일반화 능력을 향상시켰다.
Self-KD로 훈련된 모델는 표준 훈련에 비해 더 높은 품질의 신뢰도 추정치를 생성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.