QUICK REVIEW

[論文レビュー] Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds

Bo Yang, Jianan Wang|arXiv (Cornell University)|Jun 4, 2019

3D Shape Modeling and Analysis参考文献 59被引用数 208

ひとこと要約

3D-BoNetは点群のすべてのインスタンスに対して、単段・アンカーなしのフレームワークで3D境界ボックスと各点マスクを直接回帰し、ScanNetと S3DIS で最先端の結果を高い効率で達成します。

ABSTRACT

We propose a novel, conceptually simple and general framework for instance segmentation on 3D point clouds. Our method, called 3D-BoNet, follows the simple design philosophy of per-point multilayer perceptrons (MLPs). The framework directly regresses 3D bounding boxes for all instances in a point cloud, while simultaneously predicting a point-level mask for each instance. It consists of a backbone network followed by two parallel network branches for 1) bounding box regression and 2) point mask prediction. 3D-BoNet is single-stage, anchor-free and end-to-end trainable. Moreover, it is remarkably computationally efficient as, unlike existing approaches, it does not require any post-processing steps such as non-maximum suppression, feature sampling, clustering or voting. Extensive experiments show that our approach surpasses existing work on both ScanNet and S3DIS datasets while being approximately 10x more computationally efficient. Comprehensive ablation studies demonstrate the effectiveness of our design.

研究の動機と目的

生の点雲上で直接効率的な3Dインスタンスセグメンテーションを実現するため、重い後処理や密な提案を不要にする。
変動する数のインスタンスと順不同の出力を扱える境界ボックス予測モジュールを開発する。
オブジェクトの境界と各点マスク予測を統一フレームワークで結合し、正確なインスタンスセグメンテーションを実現する。

提案手法

バックボーンネットワークは入力点雲から各点の局所特徴とグローバルなシーン特徴を抽出する。
境界ボックス予測ブランチはグローバル特徴から固定集合Hの3D境界ボックスと対応する信頼度スコアを回帰する。
境界ボックスアソシエーション層はハンガリアン割り当てを解き、監督のためにグラウンドトゥルースボックスと予測を一致させる。
多基準損失はユークリッド距離、点上のソフトIoU（sIoU）、およびクロスエントロピースコアを組み合わせてボックス予測を監督する。
点マスク予測ブランチはボックス、局所特徴、全体特徴を融合して、インスタンスごと・点ごとの二値マスクを予測し、クラス不均衡に対して focal loss を用いる。
共通バックボーン（PointNet++）を用いたエンドツーエンド学習と、標準のクロスエントロピーで訓練されたセマンティックブランチ。

実験結果

リサーチクエスチョン

RQ1単一段階のアンカーなしフレームワークは、後処理なしで点雲から直接インスタンスの正確な3D境界ボックスを学習できるか。
RQ2幾何ボックスの監督と点ごとのカバレッジ（sIoU）およびボックス信頼度を組み合わせることは、インスタンスをグラウンドトゥルースのインスタンスに結びつけるのに有効か。
RQ3単純で共有された、ボックスを意識した各点マスクブランチは、さまざまな物体カテゴリに対してインスタンスセグメンテーションでどれくらいの性能を発揮するか。
RQ4提案ベースや後処理が多い3Dインスタンスセグメンテーション手法と比べて、計算効率の向上はどれくらいか。
RQ5クラス非依存のマスクブランチによって、見たことのないカテゴリへ一般化する能力はあるか。

主な発見

3D-BoNetはScanNet v2でIoU 0.5のAPにおいていくつかのベースラインを上回り、約10xの計算効率で実現している。
境界ボックスアソシエーションと多基準損失は、可変インスタンス設定において予測ボックスとグラウンドトゥルースボックスの信頼性の高い対応を可能にする。
点マスクブランチはRoIプーリングなしでグローバルおよびローカル特徴を再利用することにより、インスタンスレベルのセグメンテーションで競合力を発揮する。
アブレーション研究は、ボックススコアブランチと完全な多基準損失が、単一基準やボックス監督なしの設定と比べて性能を大幅に向上させることを示している。
S3DISでは、3D-BoNetはPartNetおよびASISのベースラインと比べて平均適合率が高く、再現率は同等であり、フルフレームワークが最良の性能を提供する。
計算分析は本手法がO(N)時間で動作することを示し、4k点で実用的なGPU時間が約20 ms、クラスタリングや密な提案法より大幅に高速である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。