QUICK REVIEW

[論文レビュー] Have We Mastered Scale in Deep Monocular Visual SLAM? The ScaleMaster Dataset and Benchmark

Hyoseok Ju, Bokeon Suh|arXiv (Cornell University)|Feb 20, 2026

Robotics and Sensor-Based Localization被引用数 0

ひとこと要約

ScaleMaster を提案する。大規模な室内環境での深層単眼 SLAM のスケール整合性を評価するベンチマークで、既存のベンチマークで高い性能を示すにもかかわらず、先行系は深刻なスケールの崩れを生じることを示す。

ABSTRACT

Recent advances in deep monocular visual Simultaneous Localization and Mapping (SLAM) have achieved impressive accuracy and dense reconstruction capabilities, yet their robustness to scale inconsistency in large-scale indoor environments remains largely unexplored. Existing benchmarks are limited to room-scale or structurally simple settings, leaving critical issues of intra-session scale drift and inter-session scale ambiguity insufficiently addressed. To fill this gap, we introduce the ScaleMaster Dataset, the first benchmark explicitly designed to evaluate scale consistency under challenging scenarios such as multi-floor structures, long trajectories, repetitive views, and low-texture regions. We systematically analyze the vulnerability of state-of-the-art deep monocular visual SLAM systems to scale inconsistency, providing both quantitative and qualitative evaluations. Crucially, our analysis extends beyond traditional trajectory metrics to include a direct map-to-map quality assessment using metrics like Chamfer distance against high-fidelity 3D ground truth. Our results reveal that while recent deep monocular visual SLAM systems demonstrate strong performance on existing benchmarks, they suffer from severe scale-related failures in realistic, large-scale indoor environments. By releasing the ScaleMaster dataset and baseline results, we aim to establish a foundation for future research toward developing scale-consistent and reliable visual SLAM systems.

研究の動機と目的

大規模な室内環境における単眼深層 SLAM のスケール整合性評価の欠如に対処する。
ScaleMaster を導入し、セッション内スケールドリフトとセッション間スケール曖昧性に焦点をあてたデータセットを提供する。
軌跡指標を補完するマップ品質（Chamfer および Drop Rate）評価を提供する。
ATE ベースの評価だけでは明らかにならないスケール関連の故障を明らかにするため、最先端の SLAM システムをベンチマークする。

提案手法

25 シーケンスからなる ScaleMaster データセットを提案。複数階層、長い軌跡、繰り返しビュー、低テクスチャ領域を特徴とする。
自作の携帯ハードウェア rig に iPhone 14 Pro、LiDAR、同期センサを用いてデータを取得し、ARKit トラジェクトリの LiDAR 投影から高忠実度の参照マップを生成する。
ScaleMaster 上で three deep SLAM systems（DROID-SLAM、MASt3R-SLAM、VGGT-SLAM）を評価し、軌跡の ATE（Sim(3 アラインメント後））とマップ品質指標（Chamfer 距離と Drop Rate）を用いる。
SLAM マップを LiDAR グラウンドト truth に Umeyama 変換を用いて整列し、軌跡精度を超えるマップの忠実性を評価する。

実験結果

リサーチクエスチョン

RQ1最先端の深層単眼 SLAM システムは、大規模な室内環境でのセッション内スケールドリフトに対してどれほど頑健か。
RQ2別々のセッションで構築されたマップを統合する際、セッション間スケール曖昧性はどれほど顕著か。
RQ3軌跡レベルの指標（ATE）のみで再構成マップの幾何的不整合を検出できるか。
RQ4マップ間の指標（Chamfer 距離、Drop Rate）で、軌跡指標が見逃すスケール関連の故障を検出できるか。
RQ5現実世界規模の室内シナリオ（多階、ループ、繰り返しビュー、低テクスチャ）において、現在の SLAM システムにどのような故障モードが現れるか。

主な発見

Sequence	DROID SLAM	VGGT SLAM	MASt3R SLAM	MASt3R SLAM*
Basement_01	0.08	1.44	0.38	0.42
HotelRoom_01	0.05	–	0.10	0.06
Lab_01	0.36	–	0.36	0.09
LargeHall_01	89.35	–	80.54	91.62
LargeHall_02	3.78	21.69	6.12	5.89
LargeHall_03	13.21	–	1.99	1.96
LargeHall_04	4.01	1.12	0.57	0.92
LargeHall_05	0.56	0.51	0.45	0.33
Library_01	1.68	–	5.29	3.61
Library_02	1.45	–	0.54	0.63
Library_03	0.09	–	0.09	0.06
Library_04	4.86	–	3.54	3.22
Library_05	4.35	13.26	3.08	4.00
Library_06	0.05	–	0.05	0.04
Library_07	0.13	0.22	0.13	0.12
Library_08	0.09	–	0.09	0.06
Library_09	0.04	–	0.07	0.05
Lobby_01	0.76	3.18	0.54	0.27
Lounge_01	4.51	–	0.47	0.16
Office_01	5.61	–	8.03	0.65
Parking_01	10.21	–	32.37	26.13
Parking_02	0.20	–	0.39	0.21
Stairs_01	20.20	–	4.60	2.30
Stairs_02	5.59	1.05	1.00	0.14
Station_01	11.66	–	13.21	4.37

ScaleMaster は、既存のベンチマークでは見られない、先行 SLAM システムの深刻なスケール関連の故障を明らかにする。
長い軌跡（例：LargeHall_01）は、軌跡誤差で評価すると 80–90 m の ATE を生み出し、現実的条件下でのスケールドリフトを示す。
MAP-quality 指標は、軌跡誤差が小さく見えても幾何的不整合（高い Chamfer 距離、高い Drop Rate）を検出する。
Library_07 は、1 m 閾値で 89.1% のアウトライヤ、10 m 閾値で 9.99 m の Chamfer 距離という壊滅的なマップ故障を示す一方、ポーズ誤差は控えめ。
MAP 評価は、軌跡ベースの評価が見逃す歪みとスケール崩壊を暴露し、マップ中心のベンチマークの必要性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。