Skip to main content
QUICK REVIEW

[論文レビュー] Object as Hotspots: An Anchor-Free 3D Object Detection Approach via Firing of Hotspots

Qi Chen, Lin Sun|arXiv (Cornell University)|Dec 30, 2019
Advanced Neural Network Applications参考文献 53被引用数 22
ひとこと要約

本稿では、点群内の空間的に配置された非空のボクセル(ホットスポット)として物体をモデル化するアンカーフリー3次元物体検出法であるObject as Hotspots(OHS)を提案する。特徴的なホットスポットを選択し、四分木分割を用いてその空間的関係を符号化することで、物体間の点のスパarsity不均衡を軽減し、KITTIおよびNuScenesベンチマークで最先端の性能を達成した。特に、25 FPSの推論速度を達成し、自転車乗りおよび歩行者検出においてKITTIで1位を獲得した。

ABSTRACT

Accurate 3D object detection in LiDAR based point clouds suffers from the challenges of data sparsity and irregularities. Existing methods strive to organize the points regularly, e.g. voxelize, pass them through a designed 2D/3D neural network, and then define object-level anchors that predict offsets of 3D bounding boxes using collective evidences from all the points on the objects of interest. Contrary to the state-of-the-art anchor-based methods, based on the very nature of data sparsity, we observe that even points on an individual object part are informative about semantic information of the object. We thus argue in this paper for an approach opposite to existing methods using object-level anchors. Inspired by compositional models, which represent an object as parts and their spatial relations, we propose to represent an object as composition of its interior non-empty voxels, termed hotspots, and the spatial relations of hotspots. This gives rise to the representation of Object as Hotspots (OHS). Based on OHS, we further propose an anchor-free detection head with a novel ground truth assignment strategy that deals with inter-object point-sparsity imbalance to prevent the network from biasing towards objects with more points. Experimental results show that our proposed method works remarkably well on objects with a small number of points. Notably, our approach ranked 1st on KITTI 3D Detection Benchmark for cyclist and pedestrian detection, and achieved state-of-the-art performance on NuScenes 3D Detection Benchmark.

研究の動機と目的

  • LiDAR点群におけるデータのスパarsityおよび不規則性に起因する3次元物体検出の課題に対処すること。
  • 物体間の点のスパarsity不均衡に起因する、従来のアンカーベース手法における点数の多い物体へのバイアスを解消すること。
  • 局所化精度を向上させるために、特徴的な部分とその空間的配置を捉える新しい物体表現を構築すること。
  • 点密度の異なる物体にわたる正例のバランスを取る独自のホットスポット割り当て戦略を有するアンカーフリー検出ヘッドを設計すること。
  • アンカーフリー検出におけるスケールばらつきを軽減することで、回帰の安定性を向上させること。

提案手法

  • 物体を、冗長性を低減するための特徴的潜在性に基づいて選択された非空内部ボクセル(ホットスポット)の組み合わせとして表現する。
  • すべての点ではなくホットスポットに真のラベルを割り当てる。点数の異なる物体にわたる正例のバランスを取るために、新たなホットスポット割り当て戦略を採用する。
  • ホットスポット間の空間的関係を四分木分割(4つの象限)を用いて符号化することで、粗い空間的レイアウトをモデル化し、局所化精度を向上させる。
  • スケールばらつきを処理し、アンカーなしでボクシングボックス回帰の不均衡を低減するために、ソフトargminを回帰ターゲットに適用する。
  • ホットスポットの空間的符号化を補助的監視として統合し、ホットスポットの位置を物体中心からの相対的位置(例:前/後ろ、左/右、象限)に分類する。
  • BEVベースのバックボーンと、2次元ボクシングボックス予測のためのヒートマップおよび回帰ヘッドを備えた検出ヘッドを用い、分類と回帰の損失関数を組み合わせる。

実験結果

リサーチクエスチョン

  • RQ1特徴的な内部ボクセル(ホットスポット)に基づく構成的物体表現が、スパースなLiDAR点群における3次元物体検出を改善できるか?
  • RQ2サイズ、距離、隠蔽、反射率などの要因によって引き起こされる物体間の点のスパarsity不均衡は、3次元検出で効果的に軽減可能か?
  • RQ3ホットスポット間の空間的関係をモデル化することで、アンカーフリー3次元検出における局所化精度が向上するか?
  • RQ4事前に定義されたアンカーのサイズがなくても、ソフトargminがアンカーフリー3次元検出における回帰ターゲットの不均衡を効果的に解消できるか?
  • RQ5検出性能を向上させるために、ホットスポットに最適な空間的符号化戦略は何か?

主な発見

  • 提案されたOHS手法は、NuScenes 3次元検出ベンチマークで最先端の性能を達成した。
  • KITTI 3次元検出ベンチマークでは、自転車乗りおよび歩行者検出で1位を達成し、それぞれ「easy」と「hard」スプリットで82.25%および89.48%のmAPを達成した。
  • KITTIでは25 FPSの推論速度を達成し、リアルタイム動作を実現した。
  • 四分木ベースのホットスポット空間符号化が最良の性能を示し、ベースラインおよび他の符号化タイプと比較してmAPを最大2.5%向上させた。
  • アブレーションスタディの結果、回帰にソフトargminを使用することで性能が著しく向上し、点数が少ない小形物体において顕著に効果を示した。
  • 可視化結果から、ホットスポットが一貫して構造的に顕著な部分(例:車両の前側コーナー)に活性化されていることが確認され、モデルが意味的で特徴的な特徴を学習していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。