QUICK REVIEW

[論文レビュー] Relational Knowledge Distillation

Wonpyo Park, Dong‐Ju Kim|arXiv (Cornell University)|Apr 10, 2019

Machine Learning and Data Classification参考文献 42被引用数 50

ひとこと要約

この論文は Relational Knowledge Distillation (RKD) を紹介し、距離方向および角度方向の損失を用いてデータサンプル間の相互関係を教師から生徒へ転送し、メトリック学習、分類、few-shot 学習全般の性能を改善します。

ABSTRACT

Knowledge distillation aims at transferring knowledge acquired in one model (a teacher) to another model (a student) that is typically smaller. Previous approaches can be expressed as a form of training the student to mimic output activations of individual data examples represented by the teacher. We introduce a novel approach, dubbed relational knowledge distillation (RKD), that transfers mutual relations of data examples instead. For concrete realizations of RKD, we propose distance-wise and angle-wise distillation losses that penalize structural differences in relations. Experiments conducted on different tasks show that the proposed method improves educated student models with a significant margin. In particular for metric learning, it allows students to outperform their teachers' performance, achieving the state of the arts on standard benchmark datasets.

研究の動機と目的

大きな教師からより小さな生徒へ知識を移転させ、計算量とメモリコストを削減する動機付け。
出力個々よりも構造を重視する KD の関係的視点を提案する。
高次の関係を捉えるための2つの具体的な RKD 損失（距離ベースと角度ベース）を導入する。
メトリック学習、画像分類、および few-shot 学習における RKD の有効性を示す。

提案手法

RKD を、教師と生徒の関係間の損失を用いてデータの n-組に対する関係的ポテンシャル psi を転送する形式として定式化する。
距離ベース蒸留 psi_D(t_i,t_j) = (1/μ) ||t_i - t_j||_2 を μ をミニバッチの平均距離として定義する。
角度ベース蒸留 psi_A(t_i,t_j,t_k) = cos(angle t_i t_j t_k) を、埋め込み間の正規化ベクトルを用いて定義する。
aHuber 損失 l_δ を用いて教師と生徒の関係的ポテンシャルの差異を測定する。
可動重みを持つ結合目的関数 L_task + λ_KD L_KD で、RKD 損失をタスク固有の損失と結合する。
出力次元に依存せず、高次の関係転送を可能にするため、教師と生徒の埋め込みに対して RKD を適用する。

実験結果

リサーチクエスチョン

RQ1データ例間の関係情報を転送することで、従来の出力ベースの KD を超える生徒モデルの改善につながるか？
RQ2距離ベースおよび角度ベースの関係損失は、学習を助ける補完的な高次構造を捉えるか？
RQ3RKD はメトリック学習、画像分類、few-shot 学習などの多様なタスクで有効か？

主な発見

RKD は従来の KD ベースラインと比較して、メトリック学習、分類、および few-shot 学習のいずれにおいても生徒の性能を向上させる。
メトリック学習では、RKD により小型の生徒が標準ベンチマークで教師を上回る。
角度ベース（RKD-A）は、距離のみの蒸留よりも収束が速く、性能が向上することが多い。
RKD は他の KD 手法と補完的であり、組み合わせると結果をさらに向上させることができる（例：RKD と HKD の併用）。
RKD を用いた自己蒸留は、複数のデータセットにおいて生徒モデルが教師を上回ることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。