Skip to main content
QUICK REVIEW

[论文解读] Learning to Localize Reference Trajectories in Image-Space for Visual Navigation

Finn Lukas Busch, Matti Vahs|arXiv (Cornell University)|Feb 21, 2026
Multimodal Machine Learning Applications被引用 0
一句话总结

LoTIS 预测参考 RGB 轨迹的每个姿态在机器人当前视图中的出现位置,从而实现机器人无关、跨形体的视觉导航和鲁棒的向后遍历。它对完整轨迹进行联合处理,并在错配相机的情况下进行训练,以达到高成功率且不需要机器人特定训练。

ABSTRACT

We present LoTIS, a model for visual navigation that provides robot-agnostic image-space guidance by localizing a reference RGB trajectory in the robot's current view, without requiring camera calibration, poses, or robot-specific training. Instead of predicting actions tied to specific robots, we predict the image-space coordinates of the reference trajectory as they would appear in the robot's current view. This creates robot-agnostic visual guidance that easily integrates with local planning. Consequently, our model's predictions provide guidance zero-shot across diverse embodiments. By decoupling perception from action and learning to localize trajectory points rather than imitate behavioral priors, we enable a cross-trajectory training strategy for robustness to viewpoint and camera changes. We outperform state-of-the-art methods by 20-50 percentage points in success rate on conventional forward navigation, achieving 94-98% success rate across diverse sim and real environments. Furthermore, we achieve over 5x improvements on challenging tasks where baselines fail, such as backward traversal. The system is straightforward to use: we show how even a video from a phone camera directly enables different robots to navigate to any point on the trajectory. Videos, demo, and code are available at https://finnbusch.com/lotis.

研究动机与目标

  • 在不依赖相机标定或机器人特定训练的情况下,使用参考轨迹实现鲁棒的视觉导航的动机。

提出的方法

  • 将引导表示为针对每个轨迹帧的图像空间坐标、可见性和归一化距离。

实验结果

研究问题

  • RQ1LoTIS 在与该任务相约束的基线相比,沿前向轨迹跟随的表现如何?
  • RQ2LoTIS 是否比基于子目标的方法更能处理非轨迹起始点?
  • RQ3LoTIS 对参考轨迹与查询轨迹之间相机内参和安装高度不匹配的鲁棒性如何?
  • RQ4仅在前向轨迹上训练的模型是否能够在没有显式演示的情况下推广到向后遍历?

主要发现

  • LoTIS 在 Gibson 的前向在轨导航达到 94.7% 的 SR,在 HM3D 上达到 98.5% 的 SR,明显超过基线。
  • 在有避障的情况下,LoTIS 在两个数据集的前向导航中达到 100% 的 SR。
  • LoTIS 在跨相机不匹配下仍保持高性能(例如 Gibson 83.6% 的 SR),并在挑战性设置下鲁棒地支持向后遍历(例如 HM3D 69.6–86.8% 的 SR)。
  • 在轨迹外初始化下,LoTIS 的鲁棒性显著高于基线,例如 Gibson 88.2% 的 SR,HM3D 74.0% 的 SR(无避障时)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。