Skip to main content
QUICK REVIEW

[論文レビュー] PKD: General Distillation Framework for Object Detectors via Pearson Correlation Coefficient

Weihan Cao, Yifan Zhang|arXiv (Cornell University)|Jul 5, 2022
Advanced Neural Network Applications被引用数 41
ひとこと要約

PKDは異種のオブジェクト検出器間で知識を転移させるためのPCC(ピアソン相関係数)ベースの蒸留損失を導入し、関係特徴情報と正規化に焦点を当て、クロス検出器KDの性能と収束速度を改善します。

ABSTRACT

Knowledge distillation(KD) is a widely-used technique to train compact models in object detection. However, there is still a lack of study on how to distill between heterogeneous detectors. In this paper, we empirically find that better FPN features from a heterogeneous teacher detector can help the student although their detection heads and label assignments are different. However, directly aligning the feature maps to distill detectors suffers from two problems. First, the difference in feature magnitude between the teacher and the student could enforce overly strict constraints on the student. Second, the FPN stages and channels with large feature magnitude from the teacher model could dominate the gradient of distillation loss, which will overwhelm the effects of other features in KD and introduce much noise. To address the above issues, we propose to imitate features with Pearson Correlation Coefficient to focus on the relational information from the teacher and relax constraints on the magnitude of the features. Our method consistently outperforms the existing detection KD methods and works for both homogeneous and heterogeneous student-teacher pairs. Furthermore, it converges faster. With a powerful MaskRCNN-Swin detector as the teacher, ResNet-50 based RetinaNet and FCOS achieve 41.5% and 43.9% mAP on COCO2017, which are 4.1\% and 4.8\% higher than the baseline, respectively.

研究の動機と目的

  • 物体検知において、異なるヘッドやラベル割り当てを持つ異種検出器ペア間の知識蒸留の改善を動機づける。
  • 大きさ制約を緩和し、関係情報に焦点を当てるPCCベースの特徴模倣損失を提案する。
  • FPN特徴模倣が異種検出器ペアとデータセットの間で機能することを示す。
  • 複数の検出器ファミリにわたり、COCOでより速い収束と高い性能向上を示す。

提案手法

  • 教師と student のFPN特徴を平均ゼロ・分散1に正規化してPCCベースの損失を計算する。
  • 正規化した特徴量間のMSEを最小化することは、教師と生徒の特徴間のPCCを最大化することに等しい。
  • 勾配を支配する大きさを避けるため、PCCを用いた単一の蒸留損失項(L_FPN = 1 - r(s, t))を使用する。
  • L = L_GT + alpha * L_FPNとして学習し、alphaが検出損失と蒸留損失のバランスをとる。
  • PKDは教師の検出ヘッドのフォワードを必要としないことを示し、訓練時間を短縮する。

実験結果

リサーチクエスチョン

  • RQ1PCCベースの損失による特徴模倣は、異なるヘッドとラベル割り当てを持つ異種検出器間で効果的に知識を蒸留できるか?
  • RQ2PCCベースの蒸留は、従来のMSEベースの特徴模倣と比較して性能と収束速度を向上させるか?
  • RQ3PKDはCOCO上で、2段階・1段階・アンカーベース・アンカードフリーなど多様な検出アーキテクチャに適用できるか?
  • RQ4検出器ペア間での蒸留重みalphaに対するPKDの感度はどれくらいか?

主な発見

  • PKDはCOCO上で、複数の同質・異質検出器ペアに対して一貫してmAPを改善し、以前のKD手法を上回る。
  • 強力な異種教師(例:Swinトランスフォーマーを用いるMask R-CNN)を使用すると、RetinaNetやFCOSなどの生徒に対して顕著な向上をもたらす(例:+4.1〜+4.8 mAP)。
  • PKDは従来の方法と比べ収束を加速し、教師の検出ヘッドを通す必要がないため訓練時間を短縮する。
  • 正規化により、大きさの差・支配的なFPN段・ノイズの多いチャネルにもかかわらず、堅牢な蒸留が可能になり、検出器間の互換性を高める。
  • PKDは蒸留重みalphaに対する感度が低く、設定をまたいでも安定した性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。