QUICK REVIEW

[論文レビュー] FastPillars: A Deployment-friendly Pillar-based 3D Detector

Sifan Zhou, Zhi Tian|arXiv (Cornell University)|Feb 5, 2023

Advanced Neural Network Applications被引用数 19

ひとこと要約

FastPillarsは、SPConv不要のピラー基盤3D検出器を導入し、軽量なMAPEピラーエンコーディングと計算再配置バックボーンを組み合わせ、WaymoおよびnuScenesデータセットでオンデバイス対応の遅延で最先端の精度を達成します。

ABSTRACT

The deployment of 3D detectors strikes one of the major challenges in real-world self-driving scenarios. Existing BEV-based (i.e., Bird Eye View) detectors favor sparse convolutions (known as SPConv) to speed up training and inference, which puts a hard barrier for deployment, especially for on-device applications. In this paper, to tackle the challenge of efficient 3D object detection from an industry perspective, we devise a deployment-friendly pillar-based 3D detector, termed FastPillars. First, we introduce a novel lightweight Max-and-Attention Pillar Encoding (MAPE) module specially for enhancing small 3D objects. Second, we propose a simple yet effective principle for designing a backbone in pillar-based 3D detection. We construct FastPillars based on these designs, achieving high performance and low latency without SPConv. Extensive experiments on two large-scale datasets demonstrate the effectiveness and efficiency of FastPillars for on-device 3D detection regarding both performance and speed. Specifically, FastPillars delivers state-of-the-art accuracy on Waymo Open Dataset with 1.8X speed up and 3.8 mAPH/L2 improvement over CenterPoint (SPConv-based). Our code is publicly available at: https://github.com/StiphyJay/FastPillars.

研究の動機と目的

産業現場におけるLiDAR点群のリアルタイムかつオンデバイスでの3D検出を動機づける。
SPConvを用いないデプロイメントに優しいピラー基盤検出器を開発する。
局所ジオメトリを保持する軽量なMax-and-Attention Pillar Encoding (MAPE)を導入し、特に小さな物体の検出を向上させる。
初期段階のジオメトリ情報をより活用できるよう、原理に基づく計算再配分の下でバックボーンを設計する。
大規模データセット上でTensorRT量子化を用いたエンドツーエンドのデプロイ性と高速化を実証する。

提案手法

MAPE: 三ユニットピラーエンコーディング（ポイントエンコーディング、最大プーリングエンコーディング、アテンションプーリングエンコーディング）を用いて局所/全体ピラー特徴を統合する。
バックボーン設計：LiDARジオメトリをより捉えるために初期段階へ計算を再配置し、推論待ち時間を削減する再パラメータ化ブロックを導入。
ネック：階層間の特徴融合を強化して空間的・意味的相互作用を高める（8xおよび16xの強化）。
ヘッド：IoUブランチを備えた中心点検出ヘッドで分類と回帰を橋渡しする。
学習/デプロイ：SPConvフリーのアーキテクチャでTensorRTおよびFP16推論と完全互換性を持ち、標準損失（clsは focal、reg/iouはL1、DIoU）と総合損失L_total。

実験結果

リサーチクエスチョン

RQ1SPConvフリーのピラー基盤検出器は、組み込みハードウェアでデプロイメントの複雑さを大幅に削減しつつ競争力のある精度を達成できるか？
RQ2軽量なMAPEピラーエンコーディングはBEV表現における小さな物体の検出を改善するか？
RQ3初期段階のバックボーン計算の再配置は、LiDARベースの3D検出の精度と遅延にどのような影響を与えるか？
RQ4カスタムSPConvプラグインなしで TensorRT デプロイをエンドツーエンドで実行可能で、最先端の性能を維持できるか？

主な発見

FastPillarsはWaymoの検証セットでCenterPoint（SPConvベース）に対して1.8xのスピードアップを達成し、3.8 mAP/H L2の改善を実現。
Waymo検証セットでFastPillarsは1フレームあたり36.5 msの待ち時間に到達し、CenterPointより1.8x高速、3.8 mAPH/L2の利得を達成。
MAPEは小さな物体の性能を向上させ、特に歩行者で+1.6 mAP/L2の改善を示す。
バックボーンの初期段階への計算再配置は、遅延にわずかな影響を伴いつつ、精度を顕著に向上させる（+1.3 mAPH L2）。
nuScenesおよびWaymoのテストセットで、SPConvを用いずに最先端または競争力のある結果を達成し、Waymoのテストセットで車両/歩行者の単一フレーム指標が優れていることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。