QUICK REVIEW

[論文レビュー] SpatiaLoc: Leveraging Multi-Level Spatial Enhanced Descriptors for Cross-Modal Localization

Tianyi Shang, Pengjie Xu|arXiv (Cornell University)|Jan 7, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

SpatiaLoc は Bezier 強化空間エンコーダと周波数領域特徴、および不確実性を考慮した 2D ローカライズを用いて、コース段階からファイン段階へと跨るクロスモーダルローカライズフレームワークを提案し、KITTI360Pose で最先端手法を上回る。

ABSTRACT

Cross-modal localization using text and point clouds enables robots to localize themselves via natural language descriptions, with applications in autonomous navigation and interaction between humans and robots. In this task, objects often recur across text and point clouds, making spatial relationships the most discriminative cues for localization. Given this characteristic, we present SpatiaLoc, a framework utilizing a coarse-to-fine strategy that emphasizes spatial relationships at both the instance and global levels. In the coarse stage, we introduce a Bezier Enhanced Object Spatial Encoder (BEOSE) that models spatial relationships at the instance level using quadratic Bezier curves. Additionally, a Frequency Aware Encoder (FAE) generates spatial representations in the frequency domain at the global level. In the fine stage, an Uncertainty Aware Gaussian Fine Localizer (UGFL) regresses 2D positions by modeling predictions as Gaussian distributions with a loss function aware of uncertainty. Extensive experiments on KITTI360Pose demonstrate that SpatiaLoc significantly outperforms existing state-of-the-art (SOTA) methods.

研究の動機と目的

自然言語記述と同一オブジェクトが場所を跨いで現れる市街地スケールの点群地図を用いたクロスモーダルローカライズを動機づける。
テキストと点群を、インスタンスレベルとグローバルレベルの空間関係を活用して合わせるコース-to-ファインフレームワークを提案する。
ローカライズの頑健性のために、空間手掛かりと不確実性をモデル化する特定のモジュール（BEOSE、FAE、UGFL）を導入する。
KITTI360Pose で従来の SOTA 手法より大きな経験的成果を示す。

提案手法

粗い段階で Bezier Enhanced Object Spatial Encoder (BEOSE) を用いてインスタンスレベルの空間関係を二次ベジエ曲線で精緻化。
粗い段階のグローバルレベルでは Frequency Aware Encoder (FAE) を用いてサブマップ特徴を周波数領域へ射影し、頑健なグローバル記述子を得る。
ファイン段階では Uncertainty Aware Gaussian Fine Localizer (UGFL) を用いて 2D 座標をガウス分布として回帰し、不確実性対応損失と再帰的なクロスモーダル融合を適用する。
視覚特徴と空間オフセットを結合した相対的空間グラフを構築し、視覚・テキスト双方のエッジ表現を形成する。
Gaussian Aggregation (GA) によりペアワイズエッジ特徴をノードレベルの記述子へ確率論的（再パラメータ化）集約で圧縮する。
粗い段階のクロスモーダル結合は、グローバル・インスタンスレベル・オブジェクトレベルの損失を組み合わせて検索と識別性を最適化する。

Figure 1: The overall architecture of the proposed SpatiaLoc. The left panel illustrates the coarse stage, which utilizes the BEOSE for instance-level spatial alignment and the FAE to extract frequency-domain spatial geometric features for global-level alignment. The right panel depicts the Fine Sta

実験結果

リサーチクエスチョン

RQ1繰り返し現れるオブジェクト間の相対的空間関係を明示的にモデル化することで、テキスト-to-点群ローカライズを改善できるか。
RQ2インスタンスレベルの Bezier でエンコードされた空間手掛かりとグローバル周波数領域特徴は、従来の SOTA を超える粗い段階のサブマップ検索を改善するか。
RQ3ファイン段階の不確実性を考慮したガウスモデリングは、クロスモーダルの曖昧性の下で頑健な 2D ローカライズを高めるか。
RQ4マルチレベル（インスタンスとグローバル）の空間表現は、クロスモーダルの整合性をどう向上させるか。

主な発見

Methods	Validation k=1	Validation k=3	Validation k=5	Test k=1	Test k=3	Test k=5
Text2Pos	0.14	0.28	0.37	0.12	0.25	0.33
RET	0.18	0.34	0.44	0.15	0.29	0.37
Text2Loc	0.31	0.54	0.64	0.28	0.49	0.58
IFRP-T2P	0.24	0.46	0.57	0.23	0.39	0.48
MambaPlace	0.35	0.61	0.72	0.31	0.53	0.62
CMMLoc	0.35	0.61	0.73	0.32	0.53	0.63
PMSH	0.37	0.63	0.73	0.34	0.56	0.65
SpatiaLoc (Global)	0.51	0.71	0.71?	0.?	0.??	0.??
SpatiaLoc (coarse-to-fine)	0.54	0.77	0.82	0.51	0.71	0.74

SpatiaLoc（コース-to-ファイン）は、粗い段階と細かい段階の両方で KITTI360Pose における最先端リコールを実現し、最も困難なテストセットで大きな利得を達成した。
粗い段階の検索で、SpatiaLoc はリコールの改善を達成（例：テストで k=1 の場合 0.48、PMSH 0.34 から上昇）し、高い k で強力な利得を示す（0.80 at k=5）。
Frequency Aware Encoder (FAE) は周波数領域で堅牢なグローバル記述子を提供し、グローバル特徴のみでも粗い段階の検索を強力にする。
BEOSE は性能を大幅に向上させる；それを除くと Recall@1 は約 9 パーセントポイント低下する。
GA と不確実性を考慮した UGFL はファイン段階での堅牢な融合と回帰に寄与し、除去時に定量的な低下を示す。
総じて、SpatiaLoc はサブマップ検索と正確なローカライズの両方で従来の SOTA 手法を一貫して上回り、コース-to-ファイン、多層空間戦略を検証している。

Figure 2: Visualization Results for SpatiaLoc.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。