QUICK REVIEW

[논문 리뷰] Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

Xin Wang, Qiuyuan Huang|arXiv (Cornell University)|2018. 11. 25.

Multimodal Machine Learning Applications참고 문헌 57인용 수 37

한 줄 요약

이 논문은 시각-언어 네비게이션에서 국소적이고 전역적으로 교차 모달 기반을 향상시키기 위해 강화 학습과 사이클 재구성 내재 보상(내재 보상)을 조합한 강화된 교차 모달 매칭(RCM) 프레임워크를 제안한다. 또한, 새로운 환경에서의 일반화를 향상시키기 위해 자기 지율적 모방 학습(SIL)을 도입하여 R2R 벤치마크에서 최신 기준 성능(SOTA)을 달성했으며, SPL을 10% 향상시키고, 본 적 있는 환경와 본 적 없는 환경 간의 성능 격차를 30.7%에서 11.7%로 감소시켰다.

ABSTRACT

Vision-language navigation (VLN) is the task of navigating an embodied agent to carry out natural language instructions inside real 3D environments. In this paper, we study how to address three critical challenges for this task: the cross-modal grounding, the ill-posed feedback, and the generalization problems. First, we propose a novel Reinforced Cross-Modal Matching (RCM) approach that enforces cross-modal grounding both locally and globally via reinforcement learning (RL). Particularly, a matching critic is used to provide an intrinsic reward to encourage global matching between instructions and trajectories, and a reasoning navigator is employed to perform cross-modal grounding in the local visual scene. Evaluation on a VLN benchmark dataset shows that our RCM model significantly outperforms previous methods by 10% on SPL and achieves the new state-of-the-art performance. To improve the generalizability of the learned policy, we further introduce a Self-Supervised Imitation Learning (SIL) method to explore unseen environments by imitating its own past, good decisions. We demonstrate that SIL can approximate a better and more efficient policy, which tremendously minimizes the success rate performance gap between seen and unseen environments (from 30.7% to 11.7%).

연구 동기 및 목표

에이전트가 언어 지시어를 시각적 장면과 궤적과 정렬해야 하는 시각-언어 네비게이션(VLN)에서 교차 모달 기반 문제를 해결하기 위해.
목표에 도달했을 때만 성공 신호가 주어지는 VLN에서의 부적절한 피드백 문제를 완화하기 위해, 네비게이션 중 지시어의 정확성에 대한 신호를 고려하지 않는 문제를 해결하기 위해.
기본적으로 임베디드 에이전트의 일반화 문제인 본 적 있는 환경와 본 적 없는 환경 간의 성능 격차를 줄이기 위해.
강화 학습과 자기 지율적 모방 학습을 조합한 모듈러하고 모델에 종속되지 않는 프레임워크를 개발하여 새로운 환경에서의 수명 주기 학습을 가능하게 하기 위해.

제안 방법

RCM는 궤적과 원래 언어 지시어 간의 재구성 정도를 평가하기 위해 사이클 재구성 보상(내재 보상)을 내재 신호로 도입하여 전역적 교차 모달 정렬을 강제한다.
이성적 네비게이터는 역사 인식 주의를 사용하여 시각적 특징과 텍스트적 맥락에 주의를 기울이며, 하위 지시어를 시각적 장면과 정렬함으로써 국소적 교차 모달 기반을 수행한다.
에이전트는 환경의 외재적 성공 보상과 내재적 사이클 재구성 보상의 두 가지 보상을 사용하여 강화 학습을 통해 정책 학습을 향상시킨다.
SIL은 재생 버퍼에 저장된 고품질 궤적(매칭 크리틱을 통해 선별됨)을 활용하여 본 적 없는 환경에서 탐색을 가능하게 하며, 에이전트가 자신의 과거 성공적 결정을 모방하도록 한다.
프레임워크는 자기 생성된 롤아웃에서 유래한 전문가 유사 궤적의 재생 버퍼를 사용하여 외부 감독 없이도 모방 학습을 가능하게 한다.
이 방법은 모듈러하고 모델에 종속되지 않아, 네비게이터나 크리틱과 같은 구성 요소를 별도로 향상시킬 수 있다.

실험 결과

연구 질문

RQ1사이클 재구성 내재 보상이 언어 지시어와 에이전트 궤적 간의 정렬을 통해 시각-언어 네비게이션에서 교차 모달 기반을 향상시킬 수 있는가?
RQ2강화 학습을 통해 내재 보상과 외재 보상을 조합할 경우 정책 성능과 VLN에서의 일반화에 어떤 영향을 미치는가?
RQ3에이전트의 과거 성공적 궤적을 기반으로 한 자기 지율적 모방 학습이 본 적 없는 환경에서의 네비게이션 성능을 향상시킬 수 있는가?
RQ4제안된 방법이 시각-언어 네비게이션에서 본 적 있는 환경와 본 적 없는 환경 간의 성능 격차를 어느 정도 줄일 수 있는가?

주요 결과

RCM는 R2R 벤치마크에서 기존 방법에 비해 SPL을 10% 향상시켜 새로운 최신 기준 성능(SOTA)을 달성했다.
내재적 사이클 재구성 보상의 포함으로 SIL과 결합했을 때 본 적 있는 환경와 본 적 없는 환경 간의 성공률 격차가 30.7%에서 11.7%로 감소했다.
제거 실험 결과, 내재 보상을 제거하면 본 적 없는 환경에서 성공률이 1.9%p 감소하여, 일반화에 내재 보상이 중요한 역할을 한다는 점을 입증했다.
역사 인식 교차 모달 주의를 갖춘 이성적 네비게이터는 단순히 은닉 상태 주의만 사용하는 표준 순서-순서 모델보다 성능이 뛰어나, 맥락 모델링의 이점이 있음을 보여주었다.
SIL은 에이전트가 자신의 고품질 롤아웃에서 학습할 수 있도록 해, 본 적 있는 환경와 본 적 없는 환경 모두에서 성능을 크게 향상시켰으며, 게리 빔 서치를 능가했다.
이 방법은 강력한 일반화 성능을 보였으며, RCM + SIL를 사용할 경우 본 적 없는 환경에서 성공률이 기준 모델 대비 7.1%p 향상되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.