QUICK REVIEW

[論文レビュー] SAM3D: Segment Anything in 3D Scenes

Yunhan Yang, Xiaoyang Wu|arXiv (Cornell University)|Jun 6, 2023

Industrial Vision Systems and Defect Detection被引用数 31

ひとこと要約

SAM3Dは2D SAMマスクを3D点群に投影し、隣接フレームからのマスクを反復的に統合して、SAMを訓練やファインチューニングすることなく3Dシーンマスクを生成します。

ABSTRACT

In this work, we propose SAM3D, a novel framework that is able to predict masks in 3D point clouds by leveraging the Segment-Anything Model (SAM) in RGB images without further training or finetuning. For a point cloud of a 3D scene with posed RGB images, we first predict segmentation masks of RGB images with SAM, and then project the 2D masks into the 3D points. Later, we merge the 3D masks iteratively with a bottom-up merging approach. At each step, we merge the point cloud masks of two adjacent frames with the bidirectional merging approach. In this way, the 3D masks predicted from different frames are gradually merged into the 3D masks of the whole 3D scene. Finally, we can optionally ensemble the result from our SAM3D with the over-segmentation results based on the geometric information of the 3D scenes. Our approach is experimented with ScanNet dataset and qualitative results demonstrate that our SAM3D achieves reasonable and fine-grained 3D segmentation results without any training or finetuning of SAM.

研究の動機と目的

Segment Anything Model (SAM) を活用して、訓練やファインチューニングなしに細粒度の3Dシーン分割を実現する。
姿勢付きRGB-Dデータを用いて、RGBフレームから2D SAMマスクを3D点群へ投影する。
隣接フレーム間で部分的な3Dマスクを統合し、全シーンの3Dマスクを取得する。
幾何学的手がかりに基づくオーバーセグメンテーションと組み合わせてSAM由来のマスクのアンサンブルによりセグメンテーション品質を向上させる。
ScanNetで定性的な結果を示し、オープンボキャブラリ型3Dセグメンテーションの潜在的な応用について議論する。

提案手法

各RGBフレームにSAMを適用して、2Dセグメンテーションマスクを取得する。
深度とカメラの内部パラメータ/外部パラメータを用いて2Dマスクを3D空間にマッピングし、次にグリッドプーリングでダウンサンプリングする。
マスクの重なりと点の対応に基づいて、隣接フレームのマスクを統合するために双方向マージを実行する。
全体のシーンにわたるボトムアップの階層的マージを実行して、グローバルな3Dマスクを取得する。
幾何的手がかりに基づくオーバーセグメンテーションマスクとSAM3Dマスクをアンサンブルして精度を向上させる。

実験結果

リサーチクエスチョン

RQ13Dデータの訓練を行わずに、SAMベースの2Dセグメンテーションを全シーンにわたる一貫した3Dマスクへ持ち上げることができるか？
RQ2隣接フレームのマスクの重なりと双方向マージは、どれだけ効果的に一貫した3D領域マスクを生成できるか？
RQ3幾何学ベースのオーバーセグメンテーションとのアンサンブルは、3Dセグメンテーションの品質を向上させるか？

主な発見

SAM3Dは、SAMの訓練やファインチューニングを一切行わず、ScanNet上で妥当かつ細粒度の3Dセグメンテーション結果をもたらす。
本手法は壁面の塗装のような詳細なマスクを生成でき、いくつかのグラウンドトゥルースの注釈やオーバーセグメンテーション結果を上回る場合がある。
双方向マージとボトムアップマージにより、フレーム間のマスクを徐々に統合して全シーンの3Dマスクを形成する。
幾何的手がかりに基づくオーバーセグメンテーションとSAM3Dの結果をアンサンブルし、RGBの意味情報と幾何的手掛かりを併用することでセグメンテーション品質をさらに向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。