[論文レビュー] Have We Mastered Scale in Deep Monocular Visual SLAM? The ScaleMaster Dataset and Benchmark
ScaleMaster を提案する。大規模な室内環境での深層単眼 SLAM のスケール整合性を評価するベンチマークで、既存のベンチマークで高い性能を示すにもかかわらず、先行系は深刻なスケールの崩れを生じることを示す。
Recent advances in deep monocular visual Simultaneous Localization and Mapping (SLAM) have achieved impressive accuracy and dense reconstruction capabilities, yet their robustness to scale inconsistency in large-scale indoor environments remains largely unexplored. Existing benchmarks are limited to room-scale or structurally simple settings, leaving critical issues of intra-session scale drift and inter-session scale ambiguity insufficiently addressed. To fill this gap, we introduce the ScaleMaster Dataset, the first benchmark explicitly designed to evaluate scale consistency under challenging scenarios such as multi-floor structures, long trajectories, repetitive views, and low-texture regions. We systematically analyze the vulnerability of state-of-the-art deep monocular visual SLAM systems to scale inconsistency, providing both quantitative and qualitative evaluations. Crucially, our analysis extends beyond traditional trajectory metrics to include a direct map-to-map quality assessment using metrics like Chamfer distance against high-fidelity 3D ground truth. Our results reveal that while recent deep monocular visual SLAM systems demonstrate strong performance on existing benchmarks, they suffer from severe scale-related failures in realistic, large-scale indoor environments. By releasing the ScaleMaster dataset and baseline results, we aim to establish a foundation for future research toward developing scale-consistent and reliable visual SLAM systems.
研究の動機と目的
- 大規模な室内環境における単眼深層 SLAM のスケール整合性評価の欠如に対処する。
- ScaleMaster を導入し、セッション内スケールドリフトとセッション間スケール曖昧性に焦点をあてたデータセットを提供する。
- 軌跡指標を補完するマップ品質(Chamfer および Drop Rate)評価を提供する。
- ATE ベースの評価だけでは明らかにならないスケール関連の故障を明らかにするため、最先端の SLAM システムをベンチマークする。
提案手法
- 25 シーケンスからなる ScaleMaster データセットを提案。複数階層、長い軌跡、繰り返しビュー、低テクスチャ領域を特徴とする。
- 自作の携帯ハードウェア rig に iPhone 14 Pro、LiDAR、同期センサを用いてデータを取得し、ARKit トラジェクトリの LiDAR 投影から高忠実度の参照マップを生成する。
- ScaleMaster 上で three deep SLAM systems(DROID-SLAM、MASt3R-SLAM、VGGT-SLAM)を評価し、軌跡の ATE(Sim(3 アラインメント後))とマップ品質指標(Chamfer 距離と Drop Rate)を用いる。
- SLAM マップを LiDAR グラウンドト truth に Umeyama 変換を用いて整列し、軌跡精度を超えるマップの忠実性を評価する。
実験結果
リサーチクエスチョン
- RQ1最先端の深層単眼 SLAM システムは、大規模な室内環境でのセッション内スケールドリフトに対してどれほど頑健か。
- RQ2別々のセッションで構築されたマップを統合する際、セッション間スケール曖昧性はどれほど顕著か。
- RQ3軌跡レベルの指標(ATE)のみで再構成マップの幾何的不整合を検出できるか。
- RQ4マップ間の指標(Chamfer 距離、Drop Rate)で、軌跡指標が見逃すスケール関連の故障を検出できるか。
- RQ5現実世界規模の室内シナリオ(多階、ループ、繰り返しビュー、低テクスチャ)において、現在の SLAM システムにどのような故障モードが現れるか。
主な発見
| Sequence | DROID SLAM | VGGT SLAM | MASt3R SLAM | MASt3R SLAM* |
|---|---|---|---|---|
| Basement_01 | 0.08 | 1.44 | 0.38 | 0.42 |
| HotelRoom_01 | 0.05 | – | 0.10 | 0.06 |
| Lab_01 | 0.36 | – | 0.36 | 0.09 |
| LargeHall_01 | 89.35 | – | 80.54 | 91.62 |
| LargeHall_02 | 3.78 | 21.69 | 6.12 | 5.89 |
| LargeHall_03 | 13.21 | – | 1.99 | 1.96 |
| LargeHall_04 | 4.01 | 1.12 | 0.57 | 0.92 |
| LargeHall_05 | 0.56 | 0.51 | 0.45 | 0.33 |
| Library_01 | 1.68 | – | 5.29 | 3.61 |
| Library_02 | 1.45 | – | 0.54 | 0.63 |
| Library_03 | 0.09 | – | 0.09 | 0.06 |
| Library_04 | 4.86 | – | 3.54 | 3.22 |
| Library_05 | 4.35 | 13.26 | 3.08 | 4.00 |
| Library_06 | 0.05 | – | 0.05 | 0.04 |
| Library_07 | 0.13 | 0.22 | 0.13 | 0.12 |
| Library_08 | 0.09 | – | 0.09 | 0.06 |
| Library_09 | 0.04 | – | 0.07 | 0.05 |
| Lobby_01 | 0.76 | 3.18 | 0.54 | 0.27 |
| Lounge_01 | 4.51 | – | 0.47 | 0.16 |
| Office_01 | 5.61 | – | 8.03 | 0.65 |
| Parking_01 | 10.21 | – | 32.37 | 26.13 |
| Parking_02 | 0.20 | – | 0.39 | 0.21 |
| Stairs_01 | 20.20 | – | 4.60 | 2.30 |
| Stairs_02 | 5.59 | 1.05 | 1.00 | 0.14 |
| Station_01 | 11.66 | – | 13.21 | 4.37 |
- ScaleMaster は、既存のベンチマークでは見られない、先行 SLAM システムの深刻なスケール関連の故障を明らかにする。
- 長い軌跡(例:LargeHall_01)は、軌跡誤差で評価すると 80–90 m の ATE を生み出し、現実的条件下でのスケールドリフトを示す。
- MAP-quality 指標は、軌跡誤差が小さく見えても幾何的不整合(高い Chamfer 距離、高い Drop Rate)を検出する。
- Library_07 は、1 m 閾値で 89.1% のアウトライヤ、10 m 閾値で 9.99 m の Chamfer 距離という壊滅的なマップ故障を示す一方、ポーズ誤差は控えめ。
- MAP 評価は、軌跡ベースの評価が見逃す歪みとスケール崩壊を暴露し、マップ中心のベンチマークの必要性を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。