QUICK REVIEW

[論文レビュー] Virtual Sparse Convolution for Multimodal 3D Object Detection

Wu Hai, Chenglu Wen|arXiv (Cornell University)|Mar 4, 2023

Advanced Neural Network Applications被引用数 11

ひとこと要約

本論文は VirConvNet を提案する。仮想点ベースのマルチモーダル3D物体検出器で、Stochastic Voxel Discard (StVD) および Noise-Resistant Submanifold Convolution (NRConv) を用いて処理を高速化し深度補完ノイズを抑制する。KITTI と nuScenes で高速かつ高精度な結果を達成する。

ABSTRACT

Recently, virtual/pseudo-point-based 3D object detection that seamlessly fuses RGB images and LiDAR data by depth completion has gained great attention. However, virtual points generated from an image are very dense, introducing a huge amount of redundant computation during detection. Meanwhile, noises brought by inaccurate depth completion significantly degrade detection precision. This paper proposes a fast yet effective backbone, termed VirConvNet, based on a new operator VirConv (Virtual Sparse Convolution), for virtual-point-based 3D object detection. VirConv consists of two key designs: (1) StVD (Stochastic Voxel Discard) and (2) NRConv (Noise-Resistant Submanifold Convolution). StVD alleviates the computation problem by discarding large amounts of nearby redundant voxels. NRConv tackles the noise problem by encoding voxel features in both 2D image and 3D LiDAR space. By integrating VirConv, we first develop an efficient pipeline VirConv-L based on an early fusion design. Then, we build a high-precision pipeline VirConv-T based on a transformed refinement scheme. Finally, we develop a semi-supervised pipeline VirConv-S based on a pseudo-label framework. On the KITTI car 3D detection test leaderboard, our VirConv-L achieves 85% AP with a fast running speed of 56ms. Our VirConv-T and VirConv-S attains a high-precision of 86.3% and 87.2% AP, and currently rank 2nd and 1st, respectively. The code is available at https://github.com/hailanyi/VirConv.

研究の動機と目的

RGB画像とLiDARデータからの密な仮想点でマルチモーダル3D検出を動機づける。
近距離ボクセルを削除して計算の非効率を解消しつつ、遠距離の形状を保持する。
depth-completion ノイズを緩和するため、ボクセル特徴を3D空間と2D画像空間の両方に符号化する。
効率的で高精度かつ半教師付き検出のための3つのパイプライン（VirConv-L、VirConv-T、VirConv-S）を提案する。
KITTIとnuScenesのベンチマークで最先端の性能を示す。

提案手法

StVDとNRConvを組み合わせる VirConv オペレータを導入する。
Stochastic Voxel Discard (StVD): 入力ビンに基づくサンプリングで近接ボクセルの約90%を削除し、学習時には層ごとのランダム破棄を行う。
Noise-Resistant Submanifold Convolution (NRConv): 3D空間と2D画像空間の幾何特徴を符号化して深度補完ノイズを抑制する。
三つの検出器を構築する — VirConv-L（高速・早期融合）、VirConv-T（変換後の高精度なリファインメント）、VirConv-S（疑似ラベルを用いた半教師付き）。
KITTIとnuScenesで訓練・評価を行い、アブレーションとLiDARのみおよび他のマルチモーダル手法との比較を行う。

実験結果

リサーチクエスチョン

RQ1VirConv は仮想点ベースのマルチモーダル3D検出において精度を犠牲にすることなく効率を改善できるか。
RQ2StVD と NRConv は個別および共起で検出性能と深度補完ノイズへの頑健性にどのような影響を与えるか。
RQ3提案された VirConv 系列の L、T、S パイプラインは KITTI と nuScenes で最先端の方法と競合するまたはそれを上回る結果を達成するか。
RQ4半教師付きの VirConv-S はラベルなしデータを活用して性能をさらに向上させることができるか。

主な発見

VirConv-L は KITTI の car test で 85% AP を達成し、実行時間は 56 ms、マルチモーダル検出が高速であることを示す。
VirConv-T は 86.3% AP、VirConv-S は 87.2% AP を KITTI で達成し、CVPR の締切時点でのリーダーボードでそれぞれ 2 位と 1 位にランクイン。
KITTI バリデーションでは、VirConv-L、VirConv-T、VirConv-S が Car 3D AP (R40) を Voxel-RCNN ベースラインよりそれぞれ 3.42%、5.0%、5.68% 向上。
NRConv（3D+2D特徴符号化）は VirConv-T アブレーションで Car 3D AP を 88.32% から 90.29% に大幅向上。
StVD は近くの冗長なボクセルを削除して推論を高速化（入力の約90% を削減）し、よりまばらなサンプルを模倣することで性能を安定化。
nuScenes では VirConv が CenterPoint+VP および TransFusion-L+VP を改善し、VirConv with TransFusion-L+VP は TransFusion を NDS で上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。