[논문 리뷰] Chasing Ghosts: Instruction Following as Bayesian State Tracking
본 논문은 지시 따름(instruction following)을 의미 공간 맵이 포함된 베이지안 상태 추적(Bayesian state tracking)으로 형식화하고, 목표 예측에서 LingUNet보다 우수하며 탐색 제약에 과도하게 의존하지 않는 신뢰할 만한 비전-언어 내비게이션(VLN) 결과를 얻는다는 것을 보인다.
A visually-grounded navigation instruction can be interpreted as a sequence of expected observations and actions an agent following the correct trajectory would encounter and perform. Based on this intuition, we formulate the problem of finding the goal location in Vision-and-Language Navigation (VLN) within the framework of Bayesian state tracking - learning observation and motion models conditioned on these expectable events. Together with a mapper that constructs a semantic spatial map on-the-fly during navigation, we formulate an end-to-end differentiable Bayes filter and train it to identify the goal by predicting the most likely trajectory through the map according to the instructions. The resulting navigation policy constitutes a new approach to instruction following that explicitly models a probability distribution over states, encoding strong geometric and algorithmic priors while enabling greater explainability. Our experiments show that our approach outperforms a strong LingUNet baseline when predicting the goal location on the map. On the full VLN task, i.e. navigating to the goal location, our approach achieves promising results with less reliance on navigation constraints.
연구 동기 및 목표
- 부분적으로 관찰 가능한 3D 환경에서 언어를 시각 정보와 행동에 연결할 수 있는 에이전트를 구축하도록 동기를 부여한다.
- 지시로부터 목표 위치를 예측하기 위한 베이지안 상태 추적 프레임워크(매핑, 필터링, 정책)를 제안한다.
- 환경 기하를 나타내고 대체 경로에 대한 추론을 가능하게 하기 위해 의미 공간 맵을 활용한다.
- 강력한 신경 기반 기준선보다 목표 위치 예측이 개선되었음을 보여주고 광범위한 탐색 제약 없이도 신뢰할 만한 전체 VLN 성능을 보인다.
제안 방법
- semantic mapping을 가능하게 하기 위해 Matterport3D에 깊이(depth) 출력을 포함하도록 확장한다.
- CNN 특징의 깊이 인식 투영을 통해 1인칭 시점으로부터 업데이트되는 의미 공간 맵 M_t를 구성한다.
- 지시에서 유도된 관찰 및 행동에 대응하는 잠재 경로를 추적하기 위해 맵 셀에 대한 미분 가능 히스토그램 필터를 구현한다.
- 지시문으로부터 잠재 관찰 o_t와 행동 a_t를 추출하기 위해 어텐션이 있는 시퀀스-투-시퀀스 모델을 사용한다.
- 동작 및 맵에 의존하는 컨벌루션 기반 커널로 모션을 모델링하여 국소성 및 장애물 인식을 보장한다.
- Bayes 업데이트를 위한 p(o_t | s_t, M)을 계산하기 위해 LingUNet을 통한 판별적이고 학습된 관찰 모델을 사용한다.
- 예측된 신념과 실제 궤적 간의 KL-발산을 최소화하여 엔드-투-엔드로 학습하고, 선택적으로 예측된 목표에 도달하기 위한 반응형 정책을 포함한다.
- 예측된 목표를 향해 이동하도록 행동을 선택하는 글로벌 뷰포인트 그래프에서 작동하는 정책을 제공한다.
실험 결과
연구 질문
- RQ1지시 이행을 의미 공간 맵 위의 베이지안 상태 추적으로 효과적으로 프레이밍할 수 있는가?
- RQ2잠재 경로 분포를 명시적으로 모델링하는 것이 신경 기반 기준선에 비해 목표 위치 추정 및 VLN 성능을 향상시키는가?
- RQ3지시 이행에서 신념 상태에 에이전트의 방향 정보를 포함시키는 것이 미치는 영향은 무엇인가?
- RQ4학습 가능한 모션 및 관찰 모델을 갖춘 미분 가능한 베이즈 필터가 내비게이션 그래프 의존 없이도 경쟁력 있는 VLN 성능을 가능하게 할 수 있는가?
주요 결과
- 필터(x,y,theta)를 이용한 목표 예측은 학습 환경과 미학 환경에서 LingUNet보다 로버스트함이 높으며, 보고된 지표에서 평균 성능 향상을 달성한다.
- 헤딩 정보를 제거하면 성능이 저하되며, 지시를 따르는 데 방향 정보의 중요성을 강조한다.
- 보고된 설정에서 미지환경에 대해 R2R 데이터셋에서 목표 예측 방식이 LingUNet 기준선을 능가한다.
- 전체 VLN 결과는 데이터 증강이나 특수한 사전학습 없이 순수하게 모사학습(imitation learning)으로 학습된 새로운 모델 클래스에 대해 신뢰할 만한 성능을 보여 주며, 테스트 서버에서 의미 있는 성공률과 SPL을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.