[論文レビュー] Improving Multi-Task Deep Neural Networks via Knowledge Distillation for Natural Language Understanding
本論文は、多タスクDNN(MT-DNN)に知識蒸留を適用し、アンサンブルの知識を単一モデルへ転送して、GLUEスコアの最先端を達成する。
This paper explores the use of knowledge distillation to improve a Multi-Task Deep Neural Network (MT-DNN) (Liu et al., 2019) for learning text representations across multiple natural language understanding tasks. Although ensemble learning can improve model performance, serving an ensemble of large DNNs such as MT-DNN can be prohibitively expensive. Here we apply the knowledge distillation method (Hinton et al., 2015) in the multi-task learning setting. For each task, we train an ensemble of different MT-DNNs (teacher) that outperforms any single model, and then train a single MT-DNN (student) via multi-task learning to \emph{distill} knowledge from these ensemble teachers. We show that the distilled MT-DNN significantly outperforms the original MT-DNN on 7 out of 9 GLUE tasks, pushing the GLUE benchmark (single model) to 83.7\% (1.5\% absolute improvement\footnote{ Based on the GLUE leaderboard at https://gluebenchmark.com/leaderboard as of April 1, 2019.}). The code and pre-trained models will be made publicly available at https://github.com/namisan/mt-dnn.
研究の動機と目的
- エンサンブルMT-DNNの展開コストを削減しつつ、高いNLU性能を維持する動機付け。
- マルチタスク設定で、知識蒸留がエンサンブルの一般化性能を単一のMT-DNNへ転送できるかを調査する。
- 複数のタスク固有の教師を1つの学生に蒸留することでGLUEの性能向上を実証する。
- 教師を持たないタスクを含む、あらゆるタスクで蒸留モデルの堅牢性を示す。
提案手法
- 選択したタスクに対してMT-DNNのアンサンブル(教師)を学習させ、ソフトターゲットを生成する。
- 各訓練サンプルに対してアンサンブル予測を平均してソフトターゲットを算出する。
- 教師からのソフトターゲットとハードターゲットの両方を用いて、マルチタスク学習で単一のMT-DNN(学生)を訓練する。
- 教師を持つタスクについて、重み付き損失でハードターゲットとソフトターゲットを任意に組み合わせる。
- 蒸留後、GLUEの各タスクで蒸留済みMT-DNNをファインチューニングする。
実験結果
リサーチクエスチョン
- RQ1タスク固有のMT-DNNアンサンブルからの知識蒸留は、マルチタスク設定で単一のMT-DNNを改善できるか?
- RQ2蒸留されたMT-DNNはアンサンブル教師の利得を保持し、教師を持たないタスクにも利益をもたらすか?
- RQ3蒸留がGLUE性能に与える影響は、BERTベースおよび素のMT-DNNのベースラインと比べてどうか?
主な発見
- MT-DNN KDは9つのGLUEタスク中7つでバニラのMT-DNNを上回る。
- MT-DNN KDはGLUEスコア83.7%(単一モデル)を達成し、2019年4月1日時点の最先端より絶対値で1.5%、BERTより3.2%向上。
- MT-DNN KDはMT-DNNと比較してCoLAおよびRTEタスクを大幅に改善。
- 蒸留はアンサンブル教師の一般化能力を学生へ転移させ、学生はアンサンブルの多くの改善を保持する。
- 教師を持たないタスクでも、MT-DNN KDはMT-DNNを上回る顕著な向上を示し、一部のタスクでアンサンブル性能に近づく。
- アブレーション研究は、MT-DNN KDが教師提供タスクと未支援タスクの双方に利益をもたらすことを示し、効果的な知識転移を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。