QUICK REVIEW

[論文レビュー] ScanDP: Generalizable 3D Scanning with Diffusion Policy

Itsuki Hirako, Ryo Hakoda|arXiv (Cornell University)|Mar 11, 2026

3D Shape Modeling and Analysis被引用数 0

ひとこと要約

ScanDPは占有グリッドマップを条件とした拡散ポリシーを使用して、データ効率が高く汎用性のある3Dスキャンを学習し、安全性と効率を考慮した経路最適化を行い、カバレッジとロバスト性でベースラインを上回る。

ABSTRACT

Learning-based 3D Scanning plays a crucial role in enabling efficient and accurate scanning of target objects. However, recent reinforcement learning-based methods often require large-scale training data and still struggle to generalize to unseen object categories.In this work, we propose a data-efficient 3D scanning framework that uses Diffusion Policy to imitate human-like scanning strategies. To enhance robustness and generalization, we adopt the Occupancy Grid Mapping instead of direct point cloud processing, offering improved noise resilience and handling of diverse object geometries. We also introduce a hybrid approach combining a sphere-based space representation with a path optimization procedure that ensures path safety and scanning efficiency. This approach addresses limitations in conventional imitation learning, such as redundant or unpredictable behavior. We evaluate our method on diverse unseen objects in both shape and scale. Ours achieves higher coverage and shorter paths than baselines, while remaining robust to sensor noise. We further confirm practical feasibility and stable operation in real-world execution.

研究の動機と目的

限定的な専門データで unseen objects への一般化可能な3Dスキャンを実現する。
占有グリッドマッピングを通じてノイズやセンサ条件の変動に対する堅牢性を向上させる。
長時間のカメラ軌道を安全かつ効率的にする経路最適化を実現する。
拡散ポリシーを活用して人間のようなスキャン戦略を模倣しつつ衝突のない経路を保証する。

提案手法

深度測定値からのベイズの対数オッズで更新される占有グリッドマップ (OGM) を環境として表現する。
Sparse Convolutionsを用いてOGM特徴をエンコードし、コンパクトなシーン表現を生成する。
OGM特徴とカメラ姿勢履歴に条件付けられた多段階アクションを生成する条件付きデノイジング拡散確率モデル (DDPM) を使用する。
推論は初期ランダムアクションをノンできる sequence of N actions（次のカメラ姿勢を表す）へデノイズする。
OGM上でバブルベースの衝突フィルタを適用し、安全でない視点を剪定して安全な軌道を保証する。
視点抽出と短期的な経路最適化を動的計画法で実行し、再構成損失を閾値以下に維持しつつ視点数を最小化する。
最終的なスキャニング軌道をカメラ姿勢のホライズンとして出力し、デプスマップを蓄積して最終的な点群を構築する。

ScanDP: Generalizable 3D Scanning with Diffusion Policy

実験結果

リサーチクエスチョン

RQ1拡散ポリシーに基づく模倣学習は、限られた専門データで unseen objects への高い一般化を達成できるか。
RQ2占有グリッドマップを使用することで、点群ベースのアプローチと比べてノイズや物体形状の変動に対する堅牢性が向上するか。
RQ3バブルフィルタと視点抽出による経路最適化は、実践におけるスキャンの効率性と安全性にどう影響するか。
RQ4感度ノイズと視野バリエーションの下で、DPやDP3などのベースラインと比較した実世界の実験での性能はどうか。

主な発見

見知らぬ物体に対する一般化カバレッジが高い（おおよそ94.0±4.3%対DPの87±11%、DP3の89±11%）。
経路最適化により、最適化なしと比べて移動距離が平均で約32%短縮される。
実世界の実験でScanDPは約95±2.0%のカバレッジに達し、DP3の33±10.0%を上回る。
ガウス深度ノイズ下で、ノイズレベル0.1ではScanDPが約88%のカバレッジを維持するのに対し、DP3は0.01ノイズで約74%へ急低下。
OGMベースのセンシングはFoVの変動に対するロバスト性を持ち、ScanDPはL515(89.44%)、D435(83.13%)、D415(97.40%)のカバレッジを達成し、DP3を上回る。
アブレーション結果はデフォルトの確率的OGM（格子サイズ0.02 m）に最も良いトレードオフがあり、閾値付きOGMや粗く/細かい格子は性能を低下させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。