QUICK REVIEW

[論文レビュー] VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection

Yin Zhou, Oncel Tuzel|arXiv (Cornell University)|Nov 17, 2017

Advanced Neural Network Applications参考文献 39被引用数 314

ひとこと要約

VoxelNet は、空間をボクセル化してスパースな 3D LiDAR 点群上で直接動作するエンドツーエンド学習可能なフレームワークを導入し、RPN を用いて 3D バウンディングボックスを予測することで、手作り特徴量を用いずに KITTI で最先端の結果を達成します。

ABSTRACT

Accurate detection of objects in 3D point clouds is a central problem in many applications, such as autonomous navigation, housekeeping robots, and augmented/virtual reality. To interface a highly sparse LiDAR point cloud with a region proposal network (RPN), most existing efforts have focused on hand-crafted feature representations, for example, a bird's eye view projection. In this work, we remove the need of manual feature engineering for 3D point clouds and propose VoxelNet, a generic 3D detection network that unifies feature extraction and bounding box prediction into a single stage, end-to-end trainable deep network. Specifically, VoxelNet divides a point cloud into equally spaced 3D voxels and transforms a group of points within each voxel into a unified feature representation through the newly introduced voxel feature encoding (VFE) layer. In this way, the point cloud is encoded as a descriptive volumetric representation, which is then connected to a RPN to generate detections. Experiments on the KITTI car detection benchmark show that VoxelNet outperforms the state-of-the-art LiDAR based 3D detection methods by a large margin. Furthermore, our network learns an effective discriminative representation of objects with various geometries, leading to encouraging results in 3D detection of pedestrians and cyclists, based on only LiDAR.

研究の動機と目的

LiDAR ベースの 3D 物体検出を手作り特徴量なしで動機付ける。
点ごとおよびボクセルレベルの表現を学習する統合的なエンドツーエンドアーキテクチャを提案する。
ボクセル特徴量エンコード層を導入して手作業の特徴設計の必要性を排除する。
LiDAR のみを用いた KITTI の Car、Pedestrian、Cyclist の検出で最先端性能を示す。

提案手法

3D 空間を規則的なボクセルグリッドに分割し、ポイントをボクセルごとにグルーピングする。
ボクセル特徴量エンコード (VFE) 層を導入して、ポイントごとの情報と局所的に集約された情報を組み合わせてボクセルごとの特徴を学習する。
複数の VFE 層をスタックしてボクセル内の相互作用を捉え、ボクセルごとの特徴を生成する。
空でないボクセルをスパースな 4D テンソルとして表現し、疎性を活用して効率的な GPU 処理を可能にする。
3D 畳み込みの中間層を適用してボクセル間の文脈を集約する。
dense なボクセル特徴マップ上で動作する Region Proposal Network (RPN) を付加して 3D 検出を生成する。

実験結果

リサーチクエスチョン

RQ1生の LiDAR ポイント上でのエンドツーエンド学習は、手作り特徴量法を上回る 3D 物体検出を実現できるか。
RQ2ボクセルベースの特徴エンコードは、スパースな点群内で有効な 3D 形状表現を実現できるか。
RQ3LiDAR のみのパイプラインで KITTI の Car、Pedestrian、Cyclist に対して最先端の結果を達成できるか。
RQ4エンドツーエンド学習と手作りベースラインの検出性能（BEV および 3D 空間）への影響はどうか。

主な発見

手法	モダリティ	車（易）	車（中程度）	車（難）	歩行者（易）	歩行者（中程度）	歩行者（難）	自転車（易）	自転車（中程度）	自転車（難）
HC-baseline	LiDAR	71.73	59.75	55.69	43.95	40.18	37.48	55.35	36.07	34.15
VoxelNet	LiDAR	89.60	84.81	78.57	65.95	61.05	56.98	74.41	52.18	50.49

VoxelNet は KITTI の Car 検出で、easy、moderate、hard の全難易度において、3D および BEV の両方で最先端の LiDAR ベース検出手法を上回る。
3D 検出において、VoxelNet は Car の全難易度で先行する LiDAR+RGB 手法 MV を上回る AP を達成。
VoxelNet は、手作りのベースラインと比較して pedestrians および cyclists の 3D 検出性能が大幅に改善され、3D 形状表現のエンドツーエンド学習の利点を強調。
KITTI テストセットの結果は、LiDAR データのみを使用して鳥瞰図ビュー（Bird’s-eye-view）と 3D タスクの両方で従来手法を上回る。
効率的な実装は、スパースなボクセル表現と GPU パラレルに積み重ねた VFE 層を活用して、計算時間を扱いやすく維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。