QUICK REVIEW

[論文レビュー] Towards Efficient 3D Object Detection with Knowledge Distillation

Jihan Yang, Shaoshuai Shi|arXiv (Cornell University)|May 30, 2022

Advanced Neural Network Applications被引用数 28

ひとこと要約

この論文は、効率的な3D LiDAR検 detectorsを作成するための知識蒸留（KD）を研究し、柱状・ボクセルベースの検出器の6組の教師-学生ペアに対して2D KD手法をベンチマークし、重要な位置のロジットKDと教師ガイド付き初期化を組み合わせた改良KDパイプラインを提案して、FLOPsを大幅に削減しつつ高い精度を達成する。

ABSTRACT

Despite substantial progress in 3D object detection, advanced 3D detectors often suffer from heavy computation overheads. To this end, we explore the potential of knowledge distillation (KD) for developing efficient 3D object detectors, focusing on popular pillar- and voxel-based detectors.In the absence of well-developed teacher-student pairs, we first study how to obtain student models with good trade offs between accuracy and efficiency from the perspectives of model compression and input resolution reduction. Then, we build a benchmark to assess existing KD methods developed in the 2D domain for 3D object detection upon six well-constructed teacher-student pairs. Further, we propose an improved KD pipeline incorporating an enhanced logit KD method that performs KD on only a few pivotal positions determined by teacher classification response, and a teacher-guided student model initialization to facilitate transferring teacher model's feature extraction ability to students through weight inheritance. Finally, we conduct extensive experiments on the Waymo dataset. Our best performing model achieves $65.75\%$ LEVEL 2 mAPH, surpassing its teacher model and requiring only $44\%$ of teacher flops. Our most efficient model runs 51 FPS on an NVIDIA A100, which is $2.2\times$ faster than PointPillar with even higher accuracy. Code is available at \url{https://github.com/CVMI-Lab/SparseKD}.

研究の動機と目的

効率的でありながら高精度な3D検出器を、モデル圧縮と入力解像度の低減を通じて取得する方法をIdentifyする。
柱-およびボクセルベースの3D検出器に対して、6つの教師–学生ペアで既存の2D KD手法をベンチマークする。
3D物体検出における蒸留の有効性を高めるための改良KD戦略を提案する。
Waymoと KITTIで、蒸留された軽量検出器が教師の性能を大幅な計算量削減とともに上回るまたは連 близに近づくことを示す。

提案手法

固定された教師から効率的な学生検出器を構築するために、幅・深さのモデル圧縮と入力解像度の削減を検討する。
柱状・ボクセルベースの検出器について、6つの教師–学生ペアを対象に、7つの2D KD手法（ロジットKD、特徴KD、ラベルKDおよびそれらの変種）を評価する。
蒸留を高信頼または上位ランクの教師の位置に制限する「ピボタルポジションロジットKD」を提案する。
重みの再マッピングとパラメータ射影を介して教師の特徴抽出能力を転移する「Teacher Guided Initialization（TGI）」を導入する。
ピボタルポジションロジットKD、ラベルKD、TGIを組み合わせた改良KDパイプラインを開発し、WaymoとKITTIでその性能を評価する。

実験結果

リサーチクエスチョン

RQ13D LiDAR検出において強力な教師を持つ状況で、どのように高い精度を維持しつつ効率的な学生検出器を構築できるか。
RQ2柱-およびボクセルベースの3D検出器において、教師から学生への知識蒸留戦略のうちどれが最も効果的に伝達されるか。
RQ3標的化された（ピボタルポジション）ロジットマッチングと教師ガイド付き初期化は、3D検出におけるKD転送を改善できるか。
RQ4圧縮とKD手法はデータセット（Waymo、KITTI）および検出器タイプ（柱、ボクセル）間でどの程度一般化可能か。

主な発見

幅レベルの圧縮は、3D検出器においてデプス圧縮より一般にCPR（精度—効率トレードオフ）を改善する。
柱状検出器は入力解像度の低減から恩恵を受け、ボクセル検出器はBEV特徴の冗長性の違いにより幅ベースの圧縮から恩恵を受ける。
特徴KD法は個別の最大の利得をもたらすことが多いが、3D検出では他のKDストリームと干渉することがある。
ピボタルポジションロジットKDは、インスタンス近傍の高重要度領域や誤りやすい領域を模倣することにより蒸留を改善する。
Teacher Guided Initialization（TGI）は教師の特徴抽出能力を学生に移転するのに役立ち、KD損失と強い相乗効果を示す。
改良KDパイプラインは大幅な効率化と競争力のある精度を達成する：CP-Voxel-Sは教師と同等のmAPHに対し約2.4倍高速、CP-Pillar-v0.64はWaymoで教師FLOPsの約25%で約3.3%のmAPH低下。
蒸留検出器はWaymoとKITTIの実験で大幅な計算削減の下、教師の性能を上回るか同等に達することができる。
クロスステージ蒸留は、重いPV-RCNN++検出器からのヒント転送が軽量CP-Voxelに軽微な改善をもたらすことを示す（追加推論コストなし）。
手法は他の検出器やタスク（3D意味セグメンテーションを含む）にも一般化可能であり、広範な適用性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。