Skip to main content
QUICK REVIEW

[論文レビュー] Relational Knowledge Distillation

Wonpyo Park, Dong‐Ju Kim|arXiv (Cornell University)|Apr 10, 2019
Machine Learning and Data Classification参考文献 42被引用数 50
ひとこと要約

この論文は Relational Knowledge Distillation (RKD) を紹介し、距離方向および角度方向の損失を用いてデータサンプル間の相互関係を教師から生徒へ転送し、メトリック学習、分類、few-shot 学習全般の性能を改善します。

ABSTRACT

Knowledge distillation aims at transferring knowledge acquired in one model (a teacher) to another model (a student) that is typically smaller. Previous approaches can be expressed as a form of training the student to mimic output activations of individual data examples represented by the teacher. We introduce a novel approach, dubbed relational knowledge distillation (RKD), that transfers mutual relations of data examples instead. For concrete realizations of RKD, we propose distance-wise and angle-wise distillation losses that penalize structural differences in relations. Experiments conducted on different tasks show that the proposed method improves educated student models with a significant margin. In particular for metric learning, it allows students to outperform their teachers' performance, achieving the state of the arts on standard benchmark datasets.

研究の動機と目的

  • 大きな教師からより小さな生徒へ知識を移転させ、計算量とメモリコストを削減する動機付け。
  • 出力個々よりも構造を重視する KD の関係的視点を提案する。
  • 高次の関係を捉えるための2つの具体的な RKD 損失(距離ベースと角度ベース)を導入する。
  • メトリック学習、画像分類、および few-shot 学習における RKD の有効性を示す。

提案手法

  • RKD を、教師と生徒の関係間の損失を用いてデータの n-組に対する関係的ポテンシャル psi を転送する形式として定式化する。
  • 距離ベース蒸留 psi_D(t_i,t_j) = (1/μ) ||t_i - t_j||_2 を μ をミニバッチの平均距離として定義する。
  • 角度ベース蒸留 psi_A(t_i,t_j,t_k) = cos(angle t_i t_j t_k) を、埋め込み間の正規化ベクトルを用いて定義する。
  • aHuber 損失 l_δ を用いて教師と生徒の関係的ポテンシャルの差異を測定する。
  • 可動重みを持つ結合目的関数 L_task + λ_KD L_KD で、RKD 損失をタスク固有の損失と結合する。
  • 出力次元に依存せず、高次の関係転送を可能にするため、教師と生徒の埋め込みに対して RKD を適用する。

実験結果

リサーチクエスチョン

  • RQ1データ例間の関係情報を転送することで、従来の出力ベースの KD を超える生徒モデルの改善につながるか?
  • RQ2距離ベースおよび角度ベースの関係損失は、学習を助ける補完的な高次構造を捉えるか?
  • RQ3RKD はメトリック学習、画像分類、few-shot 学習などの多様なタスクで有効か?

主な発見

  • RKD は従来の KD ベースラインと比較して、メトリック学習、分類、および few-shot 学習のいずれにおいても生徒の性能を向上させる。
  • メトリック学習では、RKD により小型の生徒が標準ベンチマークで教師を上回る。
  • 角度ベース(RKD-A)は、距離のみの蒸留よりも収束が速く、性能が向上することが多い。
  • RKD は他の KD 手法と補完的であり、組み合わせると結果をさらに向上させることができる(例:RKD と HKD の併用)。
  • RKD を用いた自己蒸留は、複数のデータセットにおいて生徒モデルが教師を上回ることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。