[논문 리뷰] IntentReact: Guiding Reactive Object-Centric Navigation via Topological Intent
IntentReact는 간결한 2-hop 토폴로지 의도를 사용하여 로컬 정책에 편향을 주고 실행을 글로벌 토폴로지 진행과 정합시키는 의도 조건 객체 중심 내비게이션 프레임워크를 도입합니다. 이 프레임워크는 실행 가능성 정제 BEV 모듈의 도움을 받습니다.
Object-goal visual navigation requires robots to reason over semantic structure and act effectively under partial observability. Recent approaches based on object-level topological maps enable long-horizon navigation without dense geometric reconstruction, but their execution remains limited by the gap between global topological guidance and local perception-driven control. In particular, local decisions are made solely from the current egocentric observation, without access to information beyond the robot's field of view. As a result, the robot may persist along its current heading even when initially oriented away from the goal, moving toward directions that do not decrease the global topological distance. In this work, we propose IntentReact, an intent-conditioned object-centric navigation framework that introduces a compact interface between global topological planning and reactive object-centric control. Our approach encodes global topological guidance as a low-dimensional directional signal, termed intent, which conditions a learned waypoint prediction policy to bias navigation toward topologically consistent progression. This design enables the robot to promptly reorient when local observations are misleading, guiding motion toward directions that decrease global topological distance while preserving the reactivity and robustness of object-centric control. We evaluate the proposed framework through extensive experiments, demonstrating improved navigation success and execution quality compared to prior object-centric navigation methods.
연구 동기 및 목표
- 부분 관찰 아래에서 글로벌 객체 수준 토폴로지 계획과 로컬 지각 기반 제어 사이의 격차를 해소한다.
- 글로벌 계획 가이드를 간결한 2-hop 토폴로지 의도 신호로 인코딩한다.
- FiLM으로 학습된 웨이포인트 예측기를 모드화하여 토폴로지적으로 일관된 진행 방향으로 모션을 bias한다.
- 실행의 견고함을 BEV 기반의 실행 가능성 정제 모듈로 향상한다.
- 이전 객체 중심 방법 대비 향상된 내비게이션 성공률과 효율성을 시연한다.
제안 방법
- 객체 수준의 토폴로지 맵(3D 좌표 및 연결성을 가진 객체 노드의 그래프)을 구성한다.
- 온라인 실행 중 쿼리 객체에서 목표까지의 최단 경로를 디ijkstra 알고리즘으로 계산한다.
- 글로벌 경로에서 2-hop 의도 방향을 추출하여 다음 거리가 감소하는 노드를 향한 로봇 프레임의 단위 벡터로 표현한다.
- FiLM( gamma, beta가 2-hop 의도에서 생성된)을 통해 의도에 따라 웨이포인트 예측 컨트롤러를 조건화한다.
- 예측된 웨이포인트를 BEV 가시성 맵을 통해 투사하여 기하학적 타당성을 보장한다(필요 시 가장 가까운 타당한 projection으로 보정).
- 학습 안정화를 위한 HM3D 기반 InstanceImageNav에서 단계별 FiLM 학습으로 학습을 안정화한다(FiLM 근사 무시 초기화).
실험 결과
연구 질문
- RQ1글로벌 토폴로지 가이던스를 간단하고 로컬 제어 친화적인 신호로 효과적으로 인코딩하는 방법은 무엇인가?
- RQ2Explicit한 2-hop 의도가 부분 관찰 아래에서 글로벌 계획과 로컬 반응 결정 간의 정합을 개선하는가?
- RQ3BEV 기반 실행 가능성 정제가 학습된 제어를 보완하여 안전성과 실행 품질을 향상시키는가?
- RQ4의도 기반 제어가 불완전한 의도 추정 및 초기 방향 불확실성에 대해 얼마나 견고한가?
주요 결과
| Method | Imitate SR | Imitate SPL | Imitate SSPL | Alt Goal SR | Alt Goal SPL | Alt Goal SSPL | Shortcut SR | Shortcut SPL | Shortcut SSPL | Reverse SR | Reverse SPL | Reverse SSPL |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| RoboHop | 54.63 | 53.13 | 67.72 | 21.30 | 20.63 | 35.32 | 27.62 | 25.98 | 45.12 | 38.89 | 34.89 | 49.82 |
| TANGO | 64.81 | 59.21 | 72.67 | 24.07 | 20.57 | 36.85 | 34.29 | 30.56 | 48.90 | 55.56 | 48.48 | 62.28 |
| ObjectReact-ft | 63.89 | 57.84 | 76.05 | 26.85 | 23.79 | 38.50 | 39.05 | 34.55 | 57.28 | 51.85 | 48.04 | 64.94 |
| IntentReact | 81.48 | 76.12 | 87.85 | 34.26 | 31.07 | 43.69 | 60.95 | 53.86 | 74.35 | 62.04 | 59.89 | 70.18 |
- 의도 조건화가 여러 작업에서 기준 대비 더 높은 내비게이션 성공률과 효율성을 보인다(Imitate, Alt Goal, Shortcut, Reverse).
- 2-hop 의도가 반응 컨트롤러를 과도하게 제약하지 않는 범위에서 의미 있는 글로벌 가이던스를 제공하여 SSPL 및 SPL을 개선한다.
- FiLM 기반 의도 조건화가 기본 ObjectReact-ft 정책 대비 SPL과 SSPL을 크게 향상시킨다.
- BEV 기반 실행 가능성 정제는 웨이포인트를 통과 가능한 영역에 투사하여 실행을 더 안정적으로 만든다.
- 초기 방향 불확실성 하에서 IntentReact는 강한 강건성을 보이며, 불확실성이 커질수록 이득이 커진다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.