Skip to main content
QUICK REVIEW

[論文レビュー] Have We Mastered Scale in Deep Monocular Visual SLAM? The ScaleMaster Dataset and Benchmark

Hyoseok Ju, Bokeon Suh|arXiv (Cornell University)|Feb 20, 2026
Robotics and Sensor-Based Localization被引用数 0
ひとこと要約

ScaleMaster を提案する。大規模な室内環境での深層単眼 SLAM のスケール整合性を評価するベンチマークで、既存のベンチマークで高い性能を示すにもかかわらず、先行系は深刻なスケールの崩れを生じることを示す。

ABSTRACT

Recent advances in deep monocular visual Simultaneous Localization and Mapping (SLAM) have achieved impressive accuracy and dense reconstruction capabilities, yet their robustness to scale inconsistency in large-scale indoor environments remains largely unexplored. Existing benchmarks are limited to room-scale or structurally simple settings, leaving critical issues of intra-session scale drift and inter-session scale ambiguity insufficiently addressed. To fill this gap, we introduce the ScaleMaster Dataset, the first benchmark explicitly designed to evaluate scale consistency under challenging scenarios such as multi-floor structures, long trajectories, repetitive views, and low-texture regions. We systematically analyze the vulnerability of state-of-the-art deep monocular visual SLAM systems to scale inconsistency, providing both quantitative and qualitative evaluations. Crucially, our analysis extends beyond traditional trajectory metrics to include a direct map-to-map quality assessment using metrics like Chamfer distance against high-fidelity 3D ground truth. Our results reveal that while recent deep monocular visual SLAM systems demonstrate strong performance on existing benchmarks, they suffer from severe scale-related failures in realistic, large-scale indoor environments. By releasing the ScaleMaster dataset and baseline results, we aim to establish a foundation for future research toward developing scale-consistent and reliable visual SLAM systems.

研究の動機と目的

  • 大規模な室内環境における単眼深層 SLAM のスケール整合性評価の欠如に対処する。
  • ScaleMaster を導入し、セッション内スケールドリフトとセッション間スケール曖昧性に焦点をあてたデータセットを提供する。
  • 軌跡指標を補完するマップ品質(Chamfer および Drop Rate)評価を提供する。
  • ATE ベースの評価だけでは明らかにならないスケール関連の故障を明らかにするため、最先端の SLAM システムをベンチマークする。

提案手法

  • 25 シーケンスからなる ScaleMaster データセットを提案。複数階層、長い軌跡、繰り返しビュー、低テクスチャ領域を特徴とする。
  • 自作の携帯ハードウェア rig に iPhone 14 Pro、LiDAR、同期センサを用いてデータを取得し、ARKit トラジェクトリの LiDAR 投影から高忠実度の参照マップを生成する。
  • ScaleMaster 上で three deep SLAM systems(DROID-SLAM、MASt3R-SLAM、VGGT-SLAM)を評価し、軌跡の ATE(Sim(3 アラインメント後))とマップ品質指標(Chamfer 距離と Drop Rate)を用いる。
  • SLAM マップを LiDAR グラウンドト truth に Umeyama 変換を用いて整列し、軌跡精度を超えるマップの忠実性を評価する。

実験結果

リサーチクエスチョン

  • RQ1最先端の深層単眼 SLAM システムは、大規模な室内環境でのセッション内スケールドリフトに対してどれほど頑健か。
  • RQ2別々のセッションで構築されたマップを統合する際、セッション間スケール曖昧性はどれほど顕著か。
  • RQ3軌跡レベルの指標(ATE)のみで再構成マップの幾何的不整合を検出できるか。
  • RQ4マップ間の指標(Chamfer 距離、Drop Rate)で、軌跡指標が見逃すスケール関連の故障を検出できるか。
  • RQ5現実世界規模の室内シナリオ(多階、ループ、繰り返しビュー、低テクスチャ)において、現在の SLAM システムにどのような故障モードが現れるか。

主な発見

SequenceDROID SLAMVGGT SLAMMASt3R SLAMMASt3R SLAM*
Basement_010.081.440.380.42
HotelRoom_010.050.100.06
Lab_010.360.360.09
LargeHall_0189.3580.5491.62
LargeHall_023.7821.696.125.89
LargeHall_0313.211.991.96
LargeHall_044.011.120.570.92
LargeHall_050.560.510.450.33
Library_011.685.293.61
Library_021.450.540.63
Library_030.090.090.06
Library_044.863.543.22
Library_054.3513.263.084.00
Library_060.050.050.04
Library_070.130.220.130.12
Library_080.090.090.06
Library_090.040.070.05
Lobby_010.763.180.540.27
Lounge_014.510.470.16
Office_015.618.030.65
Parking_0110.2132.3726.13
Parking_020.200.390.21
Stairs_0120.204.602.30
Stairs_025.591.051.000.14
Station_0111.6613.214.37
  • ScaleMaster は、既存のベンチマークでは見られない、先行 SLAM システムの深刻なスケール関連の故障を明らかにする。
  • 長い軌跡(例:LargeHall_01)は、軌跡誤差で評価すると 80–90 m の ATE を生み出し、現実的条件下でのスケールドリフトを示す。
  • MAP-quality 指標は、軌跡誤差が小さく見えても幾何的不整合(高い Chamfer 距離、高い Drop Rate)を検出する。
  • Library_07 は、1 m 閾値で 89.1% のアウトライヤ、10 m 閾値で 9.99 m の Chamfer 距離という壊滅的なマップ故障を示す一方、ポーズ誤差は控えめ。
  • MAP 評価は、軌跡ベースの評価が見逃す歪みとスケール崩壊を暴露し、マップ中心のベンチマークの必要性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。