QUICK REVIEW

[論文レビュー] CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection

Su Pang, Daniel Morris|arXiv (Cornell University)|Sep 2, 2020

Advanced Neural Network Applications参考文献 30被引用数 41

ひとこと要約

CLOCsは、NMSの前に候補レベルで2D画像検出と3D LiDAR検出を統合する高速な遅結合ネットワークを導入し、KITTIでの3D/BEV検出を特に長距離で向上させます。

ABSTRACT

There have been significant advances in neural networks for both 3D object detection using LiDAR and 2D object detection using video. However, it has been surprisingly difficult to train networks to effectively use both modalities in a way that demonstrates gain over single-modality networks. In this paper, we propose a novel Camera-LiDAR Object Candidates (CLOCs) fusion network. CLOCs fusion provides a low-complexity multi-modal fusion framework that significantly improves the performance of single-modality detectors. CLOCs operates on the combined output candidates before Non-Maximum Suppression (NMS) of any 2D and any 3D detector, and is trained to leverage their geometric and semantic consistencies to produce more accurate final 3D and 2D detection results. Our experimental evaluation on the challenging KITTI object detection benchmark, including 3D and bird's eye view metrics, shows significant improvements, especially at long distance, over the state-of-the-art fusion based methods. At time of submission, CLOCs ranks the highest among all the fusion-based methods in the official KITTI leaderboard. We will release our code upon acceptance.

研究の動機と目的

単一モダリティ検出器を超える3D物体検出を改善するための多モーダル融合を動機づける。
生データではなく検出候補を活用する遅結合アーキテクチャを提案する。
2Dと3D検出間の依存関係を学習する確率的でデータ駆動の融合モジュールを作成する。
オフ・ザ・シェルフ検出器と互換性があり、低メモリフットプリントで高速な方法を保証する。
特に長距離で、KITTIにおける3DおよびBEV指標の改善を実証する。

提案手法

NMSの前に2Dと3D検出候補を融合し、単一モダリティからの真陽性を抑制しないようにする。
2Dと3D検出間の幾何学的（画像平面全体のIoU）および意味的（クラス、スコア）関係を符号化する疎なテンソルを構築する。
非空テンソル要素を、1x1畳み込みの小さな集合で処理して、融合確率マップを生成する。
クラス不均衡を扱うために focal loss を強化したクロスエントロピー損失で融合ネットワークを訓練する。
融合性能を高めるために、単一モダリティ検出器には対数尤度ベースのスコアを使用する。
既存の検出器上で動作し（再訓練不要）、標準GPUでフレームあたり約3 ms未満の低待機時間を提供する。

実験結果

リサーチクエスチョン

RQ1KITTIで、2Dと3D検出候補の遅結合が単一モダリティ検出器を上回ることができますか？
RQ2幾何学的IoUと意味的一貫性を取り入れることでマルチモーダル検出の精度は向上しますか？
RQ3KITTI 3D/BEV ベンチマークで、異なる2D/3D検出器と融合した場合のCLOCsの性能はどのようになりますか？
RQ4疎なテンソル表現と1x1畳み込みの使用が速度とメモリに与える影響はどの程度ですか？
RQ5どのスコア表現（対数尤度 vs シグモイド）がより良い融合結果をもたらしますか？

主な発見

CLOCsはKITTI検証において3DおよびBEV指標の複数の融合ベースラインを改善し、長距離（40–50 m）で顕著な向上を示します。
IoU、2Dスコア、3Dスコア、距離チャネルを使用すると最高の性能が得られ、IoUまたは3Dスコアを削除すると結果が悪化します。
フォーカル損失と対数尤度スコアは、融合入力としてのシグモイドなどの代替よりも優れています。
Cascade R-CNNやPV-RCNNなどとの融合は、KITTIのテスト/検証において、融合手法の中で最先端またはほぼ最先端の結果を達成します。
CLOCsは推論を高速に保ち、デスクトップGPUでフレームあたり3 ms未満の追加時間を実現します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。