QUICK REVIEW

[논문 리뷰] Learning to Localize Reference Trajectories in Image-Space for Visual Navigation

Finn Lukas Busch, Matti Vahs|arXiv (Cornell University)|2026. 02. 21.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

LoTIS는 참조 RGB 궤적의 각 자세가 로봇의 현재 시야에 어디에 나타날지 예측하여 로봇에 구애받지 않는, 교차 구현(크로스-임베디드) 시각적 탐색 및 견고한 역방향 탐색을 가능하게 합니다. 전체 궤적을 공동으로 처리하고 서로 다른 카메라 간 불일치를 통해 로봇 특화 학습 없이도 높은 성공률을 달성합니다.

ABSTRACT

We present LoTIS, a model for visual navigation that provides robot-agnostic image-space guidance by localizing a reference RGB trajectory in the robot's current view, without requiring camera calibration, poses, or robot-specific training. Instead of predicting actions tied to specific robots, we predict the image-space coordinates of the reference trajectory as they would appear in the robot's current view. This creates robot-agnostic visual guidance that easily integrates with local planning. Consequently, our model's predictions provide guidance zero-shot across diverse embodiments. By decoupling perception from action and learning to localize trajectory points rather than imitate behavioral priors, we enable a cross-trajectory training strategy for robustness to viewpoint and camera changes. We outperform state-of-the-art methods by 20-50 percentage points in success rate on conventional forward navigation, achieving 94-98% success rate across diverse sim and real environments. Furthermore, we achieve over 5x improvements on challenging tasks where baselines fail, such as backward traversal. The system is straightforward to use: we show how even a video from a phone camera directly enables different robots to navigate to any point on the trajectory. Videos, demo, and code are available at https://finnbusch.com/lotis.

연구 동기 및 목표

카메라 보정이나 로봇 특화 학습에 의존하지 않고 참조 궤적을 활용한 강건한 시각 탐색을 촉진한다.

제안 방법

가이던스를 이미지-공간 좌표, 가시성, 그리고 각 궤적 프레임에 대한 정규화된 거리로 표현한다.
각 궤적 프레임의 시야 정보를 이용하여 경로의 시각적 표현을 구성한다.
훈련은 서로 다른 카메라 간 매칭이 어긋난 상태에서도 일반화될 수 있도록 설계된다.
전체 궤적을 한 번에 처리하고, 프레임 간 정보를 결합하여 견고한 해석을 제공한다.

실험 결과

연구 질문

RQ1LoTIS는 이 작업을 위해 설계된 baselines와 비교했을 때 앞으로의 궤적 추적에서 어떤 성능을 보이는가?
RQ2LoTIS는 부분 목표 기반 방법보다 궤도에서 벗어난 시작점에서 더 잘 처리할 수 있는가?
RQ3참조와 쿼리 궤적 간의 카메라 내부 파라미터 및 장착 높이 불일치에 대해 LoTIS의 강건성은 어느 정도인가?
RQ4오직 앞으로의 궤적에 대해서만 학습된 모델이 명시적 시연 없이 역방향 탐색으로 일반화할 수 있는가?

주요 결과

LoTIS는 Gibson에서 forward on-trajectory 탐색 시 94.7% SR, HM3D에서 98.5% SR를 달성하여 baselines를 크게 앞섰다.
장애물 회피를 포함하면 forward 탐색에서 두 데이터셋 모두에서 100% SR에 도달한다.
LoTIS는 교차 카메라 불일치(예: Gibson 83.6% SR) 하에서도 높은 성능을 유지하며, 역방향 탐색을 견고하게 지원한다(HM3D에서 도전적 설정에서 69.6–86.8% SR).
오프-트랙 초기화 하에 LoTIS는 baselines보다 상당히 더 견고하며, 예를 들어 Gibson에서 88.2% SR, HM3D에서 74.0% SR(장애물 회피 없이)이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.