QUICK REVIEW

[論文レビュー] HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection

Maosheng Ye, Shuangjie Xu|arXiv (Cornell University)|Feb 29, 2020

Advanced Neural Network Applications参考文献 33被引用数 24

ひとこと要約

HVNetは、ハイブリッドボクセル特徴符号化を用いて特徴抽出と特徴マップの投影スケールを分離することで、1段階の3次元物体検出ネットワークを提案し、高い精度とリアルタイム推論を実現する。アテンション特徴エンコーダーと特徴融合ピラミッドを介して、点単位でのマルチスケールボクセル特徴を融合し、動的疑似画像マップに投影することで、KITTIで31 Hzの速度で最先端のmAPを達成し、既存の1段階および2段階のLiDAR手法を上回る性能を発揮する。

ABSTRACT

We present Hybrid Voxel Network (HVNet), a novel one-stage unified network for point cloud based 3D object detection for autonomous driving. Recent studies show that 2D voxelization with per voxel PointNet style feature extractor leads to accurate and efficient detector for large 3D scenes. Since the size of the feature map determines the computation and memory cost, the size of the voxel becomes a parameter that is hard to balance. A smaller voxel size gives a better performance, especially for small objects, but a longer inference time. A larger voxel can cover the same area with a smaller feature map, but fails to capture intricate features and accurate location for smaller objects. We present a Hybrid Voxel network that solves this problem by fusing voxel feature encoder (VFE) of different scales at point-wise level and project into multiple pseudo-image feature maps. We further propose an attentive voxel feature encoding that outperforms plain VFE and a feature fusion pyramid network to aggregate multi-scale information at feature map level. Experiments on the KITTI benchmark show that a single HVNet achieves the best mAP among all existing methods with a real time inference speed of 31Hz.

研究の動機と目的

LiDARベースの3次元物体検出における推論速度と検出精度のトレードオフを解消すること。特に、小形物体に対して有効であることを目的とする。
ボクセルベースのネットワークにおける固定ボクセルサイズの制限を克服すること。小形ボクセルは計算量を増加させるが、大形ボクセルは特徴の詳細を損なう。
特徴抽出に使用するスケールと特徴マップの投影に使用するスケールを分離することで、効率的なマルチスケール特徴学習を可能にすること。
学習可能なアテンション機構を用いて背景を抑制し、物体領域を強調することで、特徴表現を向上させるアテンション付きボクセル特徴エンコーダーを導入すること。
特にCyclistやPedestrianのような困難なクラスにおいても、mAPを損なわず、リアルタイム性能（≥31 Hz）を達成すること。

提案手法

マルチスケールボクセル化を用い、各点を複数の特徴抽出ボクセル（例：0.1m、0.2m、0.4m）に割り当てることで、細粒度な局所特徴学習を可能にする。
ハイブリッドボクセル特徴エンコーダーは、各点に対してスケール固有の特徴を計算し、点単位で連結することで、スケール間の空間的詳細を保持する。
アテンション付きボクセル特徴エンコーダー（AVFE）は、学習可能なアテンション機構を用いて背景を抑制し、物体領域を強調することで、判別性の高い特徴を強化する。
ネットワークは、別々の投影ボクセルグリッドを用いて、マルチスケールの点単位特徴を複数の疑似画像特徴マップに投影し、特徴抽出スケールと投影スケールを分離する。
特徴融合ピラミッドネットワーク（FFPN）は、疑似画像レベルでのスケール間特徴を統合し、検出のための文脈的表現を向上させる。
バックボーンネットワークは統合された特徴マップを処理し、ファーカス損失とNMSを用いたマルチクラスヘッドが最終的な3次元バウンディングボックスを出力する。

実験結果

リサーチクエスチョン

RQ1特徴抽出スケールと投影スケールを分離することで、統合された1段階の3次元検出器が、高精度とリアルタイム推論を両立できるか？
RQ2点単位でのマルチスケールボクセル特徴融合は、単一スケールボクセル化と比較して、小形物体の検出性能をどのように向上させるか？
RQ3アテンション付きボクセル特徴エンコーダーは、標準的なPointNetスタイルのVFEと比較して、特徴表現をどの程度向上させるか？
RQ4mAPを最大化しつつリアルタイム速度を維持するための、特徴抽出スケール数と投影スケール数の最適なバランスは何か？
RQ5KITTIベンチマークにおいて、提案手法HVNetは、最先端の1段階・2段階・マルチセンサ手法と比較して、mAPと推論速度の両面でどのように優れているか？

主な発見

HVNetは、KITTIベンチマークにおいて、PointPillars、SECOND、PointRCNNなどと比較して、すべての1段階LiDARベース3次元物体検出器の中で最高のmAPを達成した。
2080Ti GPU上で31 Hzで動作し、360°自動走行認識に必要な20 Hzのリアルタイム要件を満たしている。
VFEレイヤーにアテンションを追加することで、BEV ModerateセットでmAPが2.06ポイント向上し、特徴の判別性を高める有効性が示された。
特徴抽出スケール数S_T=3、投影スケール数S_R=3を用いた場合が最良の性能を示し、単一スケールベースラインと比較して2.17 mAPの向上を達成した。
HSVおよびインデックスベース実装を用いたハイブリッドボクセル特徴抽出器は、標準的なVFEと比較して推論時間を2ms短縮し、精度を損なわず効率性を向上させた。
定性的な結果から、遮蔽や密集したシーンにおいても、全クラスにわたり高品質な3次元バウンディングボックスを安定して検出できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。