Skip to main content
QUICK REVIEW

[論文レビュー] Distilling Object Detectors with Task Adaptive Regularization

Ruoyu Sun, Fuhui Tang|arXiv (Cornell University)|Jun 23, 2020
Advanced Neural Network Applications参考文献 31被引用数 44
ひとこと要約

本論文は、 region proposal sharing を用いたオブジェクト検出器のタスク適応蒸留フレームワークを提案し、モジュール固有の模倣損失(バックボーン、分類ヘッド、境界ボックス回帰)と蒸留減衰戦略を組み合わせ、ResNet-101–50 の学生モデルを用いて VOC で 74.5 mAP を達成し、教師を上回る。

ABSTRACT

Current state-of-the-art object detectors are at the expense of high computational costs and are hard to deploy to low-end devices. Knowledge distillation, which aims at training a smaller student network by transferring knowledge from a larger teacher model, is one of the promising solutions for model miniaturization. In this paper, we investigate each module of a typical detector in depth, and propose a general distillation framework that adaptively transfers knowledge from teacher to student according to the task specific priors. The intuition is that simply distilling all information from teacher to student is not advisable, instead we should only borrow priors from the teacher model where the student cannot perform well. Towards this goal, we propose a region proposal sharing mechanism to interflow region responses between the teacher and student models. Based on this, we adaptively transfer knowledge at three levels, \emph{i.e.}, feature backbone, classification head, and bounding box regression head, according to which model performs more reasonably. Furthermore, considering that it would introduce optimization dilemma when minimizing distillation loss and detection loss simultaneously, we propose a distillation decay strategy to help improve model generalization via gradually reducing the distillation penalty. Experiments on widely used detection benchmarks demonstrate the effectiveness of our method. In particular, using Faster R-CNN with FPN as an instantiation, we achieve an accuracy of $39.0\%$ with Resnet-50 on COCO dataset, which surpasses the baseline $36.3\%$ by $2.7\%$ points, and even better than the teacher model with $38.5\%$ mAP.

研究の動機と目的

  • 高性能を犠牲にせず、重い物体検出器のモデル小型化を動機づける。
  • 検出器モジュール(バックボーン、分類ヘッド、回帰ヘッド)に特化した一般的な蒸留フレームワークを開発する。
  • 領域提案の共有を活用して、領域間で教師/生徒の一般化を比較する。
  • 訓練の安定性と一般化を向上させる蒸留減衰戦略を導入する。
  • Faster R-CNNおよび RetinaNet のバックボーンに対して、標準的な検出ベンチマーク(VOC, COCO)で有効性を示す。

提案手法

  • 教師と student の間で region proposal sharing を導入し、領域レベルの応答を転送する。
  • バックボーン蒸留は、2D Gaussian マスクを用いて真のボックス内の前景を強調する。
  • 分類ヘッド蒸留は、正の提案に対する教師からのソフトラベルと、Ground Truth からのハードラベルを用いる。
  • 境界ボックス回帰蒸馴は、IoU 基準が教師の指導を優先する場合にのみ、教師からの適応ターゲットを使用する。
  • 蒸留損失を検出損失と組み合わせてマルチタスク目的関数とし、蒸留減衰戦略を適用して蒸留のプレッシャーを徐々に低減する。
  • Faster R-CNN with FPN および RetinaNet を VOC と COCO で実験的に検証し、mAP の改善を報告する。

実験結果

リサーチクエスチョン

  • RQ1検出器固有の知識蒸留を、タスクやモジュール(バックボーン、分類、回帰)に適応させることができるか。
  • RQ2領域提案の共有は、モデル間の一般化と効果的な蒸留を向上させるか。
  • RQ3徐々に減少する蒸留ペナルティは収束と最終的な検出性能を改善するか。
  • RQ4Gaussianベースのバックボーン蒸留と適応的なヘッド蒸留は、物体検出における素朴な特徴模倣と比較してどうか。

主な発見

モデルmAP
R-101-5074.5
Teacher R-10174.3
Student R-5070.0
  • VOC 2007で R-101(teacher)と R-50(student)を用いた場合、蒸留は mAP 74.5 を得て、教師の 74.3 を上回る。
  • Gaussianマスクによるバックボーン蒸留は、mAPで約2.4ポイントの増加を提供する。
  • 分類ヘッド蒸留と回帰ヘッド蒸留は、それぞれ著しい改善をもたらす(3.2ポイントと3.4ポイント)。
  • 蒸留減衰によりVOCの性能が73.8から74.5 mAPへとさらに向上し、教師を上回る。
  • COCOでは蒸留が RetinaNet および Faster R-CNN のベースラインを改善し、より大きな教師と競合する、あるいは上回る結果を生み出す可能性がある(例: Retina-101 は Retina-50 を 2.3 mAP 向上、R-152-50 は 39.9 mAP に到達し、いくつかの大きい教師を上回る)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。