[論文レビュー] Learning Gaussian Instance Segmentation in Point Clouds
GICN は Gaussian center heatmaps を学習して 3D 点群におけるインスタンス中心を特定し、続いてサイズ、ボックス、マスクを 1 段階のアンカー不要パイプラインで予測します。ScanNet と S3DIS で最先端の性能を達成します。
This paper presents a novel method for instance segmentation of 3D point clouds. The proposed method is called Gaussian Instance Center Network (GICN), which can approximate the distributions of instance centers scattered in the whole scene as Gaussian center heatmaps. Based on the predicted heatmaps, a small number of center candidates can be easily selected for the subsequent predictions with efficiency, including i) predicting the instance size of each center to decide a range for extracting features, ii) generating bounding boxes for centers, and iii) producing the final instance masks. GICN is a single-stage, anchor-free, and end-to-end architecture that is easy to train and efficient to perform inference. Benefited from the center-dictated mechanism with adaptive instance size selection, our method achieves state-of-the-art performance in the task of 3D instance segmentation on ScanNet and S3DIS datasets.
研究の動機と目的
- 事前に定義されたアンカーやボックス提案を用いず、点群上で直接3Dインスタンスセグメーションを動機づける。
- 中心専用でサイズを考慮したフレームワークを導入し、インスタンス中心、サイズ、ボックス、マスクを予測する。
- Gaussian center heatmaps を活用して直感的な可視化と効率的な中心選択を実現する。
- トレーニングの安定性と推論効率を向上させるためのエンドツーエンド訓練を可能にする。
提案手法
- 全体のシーンにわたってインスタンス中心を示す Gaussian center heatmaps を予測する。
- 冗長な中心を避ける center selection メカニズムを用いて、少数の中心候補を選択する。
- 中心のインスタンスサイズを予測して特徴抽出の適応的な近傍を決定する。
- サイズ対応の文脈と共有バックボーンを用いて各中心の3Dボックスを予測する。
- 予測されたボックスに対応するインスタンスマスクを joint mask network を用いて予測する。
- center、size、IoU (GIoU)、およびマスク損失を含む複数項損失で訓練する。
実験結果
リサーチクエスチョン
- RQ1Gaussian center heatmaps は 3D 点群におけるインスタンス中心を効果的に表現できるか。
- RQ2center の指示に基づくサイズ認識パイプラインはアンカー同等・提案ベースの方法より 3D インスタンスセグメンテーションを改善するか。
- RQ3中心選択は bounding box およびマスク予測とどのように相互作用して正確なインスタンスを生み出すか。
- RQ4サイズ認識近傍抽出とエンドツーエンド訓練から、精度と効率にはどんな改善が生じるか。
主な発見
| 手法 | mPrec (%) | mRec (%) |
|---|---|---|
| ASIS | 63.6 | 47.5 |
| 3D-BoNet | 65.6 | 47.6 |
| 3D-BEVIS | 65.6 | n/a |
| GICN (ours) | 68.5 | 50.8 |
- GICN は S3DIS で IoU 0.5 のとき mPrec が 68.5%、mRec が 50.8% を達成し、ASIS、3D-BoNet、3D-BEVIS を上回った。
- ScanNet v2 で、GICN は提出時点で公開方法の最高の mean AP@50% を達成している。
- center heatmaps は ground-truth center distribution に近い予測を示し、中心候補の選択を効果的に可能にする。
- サイズ認識のボックス予測とエンドツーエンド訓練は、強力な 3D インスタンスセグメンテーション性能に寄与する。
- アブレーションでは center prediction、focal loss、semantic radius priors を除去すると大幅にパフォーマンスが落ちることが示され、これらの重要性が検証された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。