Skip to main content
QUICK REVIEW

[논문 리뷰] SpatiaLoc: Leveraging Multi-Level Spatial Enhanced Descriptors for Cross-Modal Localization

Tianyi Shang, Pengjie Xu|arXiv (Cornell University)|2026. 01. 07.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

SpatiaLoc은 인스턴스- 및 글로벌 수준의 공간 관계를 활용하는 coarse-to-fine 크로스-모달 로컬라이제이션 프레임워크를 도입하며, Bezier-강화 공간 인코딩과 주파수 도메인 특징, 그리고 불확실성 인식 2D 로컬라이제이션을 통해 KITTI360Pose에서 최신 방법들을 능가한다.

ABSTRACT

Cross-modal localization using text and point clouds enables robots to localize themselves via natural language descriptions, with applications in autonomous navigation and interaction between humans and robots. In this task, objects often recur across text and point clouds, making spatial relationships the most discriminative cues for localization. Given this characteristic, we present SpatiaLoc, a framework utilizing a coarse-to-fine strategy that emphasizes spatial relationships at both the instance and global levels. In the coarse stage, we introduce a Bezier Enhanced Object Spatial Encoder (BEOSE) that models spatial relationships at the instance level using quadratic Bezier curves. Additionally, a Frequency Aware Encoder (FAE) generates spatial representations in the frequency domain at the global level. In the fine stage, an Uncertainty Aware Gaussian Fine Localizer (UGFL) regresses 2D positions by modeling predictions as Gaussian distributions with a loss function aware of uncertainty. Extensive experiments on KITTI360Pose demonstrate that SpatiaLoc significantly outperforms existing state-of-the-art (SOTA) methods.

연구 동기 및 목표

  • 도시 규모의 포인트클라우드 맵에서 동일한 물체가 위치에 따라 재등장하는 자연어 설명을 사용한 크로스-모달 로컬라이제이션의 동기를 제시한다.
  • 인스턴스 및 글로벌 수준의 공간 관계를 활용하여 텍스트와 포인트 클라우드를 정렬하기 위한 coarse-to-fine 프레임워크를 제안한다.
  • 강인한 로컬라이제이션을 위한 공간 단서와 불확실성을 모델링하기 위해 구체적인 모듈(BEOSE, FAE, UGFL)을 도입한다.
  • 이전 SOTA 방법들에 비해 KITTI360Pose에서 실험적 성능이 큰 향상을 보임을 입증한다.

제안 방법

  • Coarse 단계는 Bezier Enhanced Object Spatial Encoder (BEOSE)를 사용하여 이차 베지에 곡선을 통해 인스턴스 수준의 공간 관계를 정제한다.
  • Coarse 단계의 글로벌 레벨은 Frequency Aware Encoder (FAE)를 사용하여 서브맵 특징을 주파수 도메인으로 투영하여 강건한 글로벌 디스크립터를 생성한다.
  • Fine 단계는 Uncertainty Aware Gaussian Fine Localizer (UGFL)를 이용해 2D 위치를 불확실성 인식 손실과 재귀적 크로스-모달 융합으로 가우시안 분포로 추정한다.
  • 상대적 공간 그래프 구성은 시각 특징과 공간 오프셋을 융합하여 시각 및 텍스트 모달리티 모두의 엣지 표현을 형성한다.
  • Gaussian Aggregation (GA)은 확률적(재매개화된) 집계를 사용하여 쌍별 엣지 특징을 노드 수준의 디스크립터로 압축한다.
  • Coarse-stage 크로스-모달 정렬은 글로벌, 인스턴스-레벨, 객체-레벨 손실의 조합을 사용하여 검색 및 판별성을 최적화한다.
Figure 1: The overall architecture of the proposed SpatiaLoc. The left panel illustrates the coarse stage, which utilizes the BEOSE for instance-level spatial alignment and the FAE to extract frequency-domain spatial geometric features for global-level alignment. The right panel depicts the Fine Sta
Figure 1: The overall architecture of the proposed SpatiaLoc. The left panel illustrates the coarse stage, which utilizes the BEOSE for instance-level spatial alignment and the FAE to extract frequency-domain spatial geometric features for global-level alignment. The right panel depicts the Fine Sta

실험 결과

연구 질문

  • RQ1반복적으로 등장하는 물체들 간의 상대적 공간 관계를 명시적으로 모델링함으로써 텍스트-포인트클라우드 로컬라이제이션을 개선할 수 있는가?
  • RQ2인스턴스-레벨 Bezier-인코딩 공간 단서와 글로벌 주파수 도메인 특징이 기존 SOTA를 넘어 코스-스테이지 서브맵 검색을 개선하는가?
  • RQ3Fine 단계의 불확실성 인식 가우시안 모델링이 교차 모달 모호성 하에서 견고한 2D 로컬라이제이션을 향상시키는가?
  • RQ4다중 수준(인스턴스 및 글로벌) 공간 표현들이 상호 작용하여 크로스-모달 정렬을 어떻게 개선하는가?

주요 결과

MethodsValidation k=1Validation k=3Validation k=5Test k=1Test k=3Test k=5
Text2Pos0.140.280.370.120.250.33
RET0.180.340.440.150.290.37
Text2Loc0.310.540.640.280.490.58
IFRP-T2P0.240.460.570.230.390.48
MambaPlace0.350.610.720.310.530.62
CMMLoc0.350.610.730.320.530.63
PMSH0.370.630.730.340.560.65
SpatiaLoc (Global)0.510.710.71?0.?0.??0.??
SpatiaLoc (coarse-to-fine)0.540.770.820.510.710.74
  • SpatiaLoc (coarse-to-fine)는 Coarse와 Fine 단계 전반에서 KITTI360Pose에서 최첨단 Recall을 달성하며, 도전적인 테스트 세트에서 큰 이득을 얻었다.
  • Coarse-스테이지 검색에서 SpatiaLoc은 Recall 향상(예: 테스트에서 k=1일 때 0.48 대 PMSH 0.34) 및 k가 큰 경우 강한 이득(0.80 at k=5)을 달성한다.
  • Frequency Aware Encoder (FAE)는 주파수 도메인에서 강건한 글로벌 디스크립터를 제공하여 글로벌 특징만으로도 강력한 coarse-stage 검색을 가능하게 한다.
  • BEOSE는 성능을 크게 향상시키며, 이를 제거하면 Recall@1이 약 9포인트 감소한다.
  • GA와 불확실성 인식 UGFL은 Fine 단계에서 강건한 융합 및 회귀에 기여하며, 제거 시 측정 가능한 감소가 나타난다.
  • 전반적으로 SpatiaLoc은 서브맵 검색과 정밀 로컬라이제이션 모두에서 이전 SOTA 방법들보다 일관되게 우수하며, coarse-to-fine 다중 수준 공간 전략의 타당성을 입증한다.
Figure 2: Visualization Results for SpatiaLoc.
Figure 2: Visualization Results for SpatiaLoc.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.