QUICK REVIEW

[論文レビュー] Self-Knowledge Distillation: A Simple Way for Better Generalization

Kyungyul Kim, Byeongmoon Ji|arXiv (Cornell University)|Jun 22, 2020

Advanced Neural Network Applications参考文献 36被引用数 40

ひとこと要約

本論文では、自己知識蒸留（Self-KD）を提案する。これは、訓練中にモデル自身の知識を段階的に蒸留することで、ハードな one-hot ラベルをなめらかにする正則化手法であり、深層ニューラルネットワークの一般化性能を向上させる。この手法は、IWSLT15 英語→ドイツ語翻訳タスクで BLEU スコア 30.0、ドイツ語→英語タスクで 36.2 を達成し、最先端の性能を発揮する。

ABSTRACT

The generalization capability of deep neural networks has been substantially improved by applying a wide spectrum of regularization methods, e.g., restricting function space, injecting randomness during training, augmenting data, etc. In this work, we propose a simple yet effective regularization method named self-knowledge distillation (Self-KD), which progressively distills a model's own knowledge to soften hard targets (i.e., one-hot vectors) during training. Hence, it can be interpreted within a framework of knowledge distillation as a student becomes a teacher itself. The proposed method is applicable to any supervised learning tasks with hard targets and can be easily combined with existing regularization methods to further enhance the generalization performance. Furthermore, we show that Self-KD achieves not only better accuracy, but also provides high quality of confidence estimates. Extensive experimental results on three different tasks, image classification, object detection, and machine translation, demonstrate that our method consistently improves the performance of the state-of-the-art baselines, and especially, it achieves state-of-the-art BLEU score of 30.0 and 36.2 on IWSLT15 English-to-German and German-to-English tasks, respectively.

研究の動機と目的

ハードターゲットを用いた教師あり学習における深層ニューラルネットワークの一般化能力を向上させること。
外部の教師を必要とせず、シンプルでありながら効果的な正則化手法を開発すること。
多様な機械学習タスクにおいて、向上した精度に加えて高品質な信頼度推定を提供すること。
画像分類、物体検出、機械翻訳を含む複数のタスクで一貫した性能向上を示すこと。

提案手法

Self-KD は、モデル自身を学生および教師として用いる知識蒸留を適用し、訓練中に自身のソフト予測を用いて損失を精緻化する。
モデル自身の出力確率をターゲット分布として用いることで、段階的にハード one-hot ターゲットをなめらかにする。
既存の正則化手法とシームレスに統合され、モデル自身の予測からの知識蒸留によってそれらの効果が向上する。
訓練中に繰り返し適用される蒸留プロセスにより、モデルは内部の知識表現を段階的に精緻化する。
滑らかな確率分布を促進するため、温度調整付き交差エントロピー損失を用いることで、一般化性能が向上する。

実験結果

リサーチクエスチョン

RQ1モデルは自身の予測から知識を蒸留することで、自己の一般化能力を向上させることができるか？
RQ2ソフトターゲットを用いた自己蒸留は、標準的な訓練と比較して、より良い性能と信頼性の高い信頼度推定をもたらすか？
RQ3Self-KD は、既存の正則化手法と効果的に組み合わせられ、モデル性能をさらに向上させることができるか？
RQ4Self-KD は、画像分類、物体検出、機械翻訳などの多様なタスクで効果を発揮するか？

主な発見

Self-KD は、IWSLT15 英語→ドイツ語翻訳タスクで BLEU スコア 30.0、ドイツ語→英語タスクで 36.2 を達成し、最先端のスコアを記録した。
本手法は、画像分類、物体検出、機械翻訳タスクにおいて、最先端のベースラインの性能を一貫して向上させた。
Self-KD は、既存の正則化技術と組み合わせても、標準的な訓練を上回る一般化性能を発揮した。
Self-KD で訓練されたモデルは、標準的な訓練と比較して、より高品質な信頼度推定を生成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。