[論文レビュー] Graph-based Knowledge Distillation by Multi-head Attention Network
The paper introduces MHGD, a graph-based knowledge distillation framework that uses multi-head attention to distill dataset-embedding knowledge from a teacher network to a student network, improving performance on CIFAR100 and TinyImageNet.
Knowledge distillation (KD) is a technique to derive optimal performance from a small student network (SN) by distilling knowledge of a large teacher network (TN) and transferring the distilled knowledge to the small SN. Since a role of convolutional neural network (CNN) in KD is to embed a dataset so as to perform a given task well, it is very important to acquire knowledge that considers intra-data relations. Conventional KD methods have concentrated on distilling knowledge in data units. To our knowledge, any KD methods for distilling information in dataset units have not yet been proposed. Therefore, this paper proposes a novel method that enables distillation of dataset-based knowledge from the TN using an attention network. The knowledge of the embedding procedure of the TN is distilled to graph by multi-head attention (MHA), and multi-task learning is performed to give relational inductive bias to the SN. The MHA can provide clear information about the source dataset, which can greatly improves the performance of the SN. Experimental results show that the proposed method is 7.05% higher than the SN alone for CIFAR100, which is 2.46% higher than the state-of-the-art.
研究の動機と目的
- データ内の関係性の知識を蒸留する必要性を動機づけ、CNNのデータ埋め込みを向上させる。
- データセット埋め込み手続きを捉えるためにマルチヘッドアテンションを用いたグラフベースの蒸留手法を提案する。
- 転移タスクを含むマルチタスク学習設定で、学生ネットワークが関係性の帰納的バイアスを継承できるようにする。
提案手法
- KD-SVDを用いて2つの sensing point からの特徴マップを特徴ベクトルに圧縮する。
- フロントエンドとバックエンドの特徴ベクトル間の関係をマルチヘッドアテンションネットワーク(MHAN)を用いて計算する。
- 複数のアテンションヘッドを訓練してグラフベースの関係を生み出すことで埋め込み知識を蒸留する。
- 転移損失を伴うマルチタスク学習で蒸留されたグラフベースの知識を学生へ転送する。
- 滑らかなアテンションマップと教師-学生グラフ間のKLダイバージェンスを用いて学習を誘導する。)
実験結果
リサーチクエスチョン
- RQ1マルチヘッドアテンションによって捉えられたグラフベースの埋め込み知識は、伝統的な特徴ベクトルベースの手法を超えるKDを実現できるか。
- RQ2アテンションヘッドの数は、蒸留知識の質とSNの性能にどのように影響するか。
- RQ3グラフベースの知識転送を用いたマルチタスク学習は、初期化ベースや単一タスクのKD手法より有利か。
主な発見
- MHGDはCIFAR100でSN単独と比べ最大約7%、TinyImageNetで約4%の性能向上を達成。
- MHGDはKD-SVDや最先端手法を、いくつかの設定で上回る(例:VGGおよびWResNetバックボーン)。
- アテンションヘッドの数を増やすと一般に性能が向上するが、ある点までで、複雑さの過多でゲインが飽和または劣化することがある。
- グラフベースの知識転送を用いたマルチタスク学習は、訓練中の性能向上を維持する一方で、初期化ベースのKD手法の中にはそうでないものもある。
- 本手法はアーキテクチャに依存しない利得を生み、VGG、MobileNet、ResNetバックボーン全体でSNの性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。