Skip to main content
QUICK REVIEW

[논문 리뷰] One-Shot Reinforcement Learning for Robot Navigation with Interactive Replay

Jake Bruce, Niko Sünderhauf|arXiv (Cornell University)|2017. 11. 28.
Reinforcement Learning in Robotics참고 문헌 30인용 수 53
한 줄 요약

이 논문은 하나의 실제 탐험에서 인터랙티브 리플레이를 사용하고, 고정된 사전 학습 시각 인코더와 확률적 관찰 증강으로 파인 튜닝 없이 제로샷 전이를 달성하기 위한 로봇 내비게이션의 오프라인 학습을 제시한다.

ABSTRACT

Recently, model-free reinforcement learning algorithms have been shown to solve challenging problems by learning from extensive interaction with the environment. A significant issue with transferring this success to the robotics domain is that interaction with the real world is costly, but training on limited experience is prone to overfitting. We present a method for learning to navigate, to a fixed goal and in a known environment, on a mobile robot. The robot leverages an interactive world model built from a single traversal of the environment, a pre-trained visual feature encoder, and stochastic environmental augmentation, to demonstrate successful zero-shot transfer under real-world environmental variations without fine-tuning.

연구 동기 및 목표

  • 하나의 환경 트래버설을 인터랙티브 월드 모델을 통해 학습하여 실제 상호작용을 줄인다.
  • 작은 학습 세트에 과적합을 방지하기 위해 고정된 사전 학습 시각 인코더를 활용한다.
  • 일관된 일반화 및 전이를 개선하기 위해 학습을 확률적 관찰 증강으로 보강한다.
  • 강인하고 전이 가능한 내비게이션 성능을 위한 부트스트랩 Q-러닝을 평가한다.

제안 방법

  • 단일 트래버설에서 포즈 그래프를 구축하고 그들의 인터랙티브 리플레이 버퍼를 만들어 가상 학습 환경을 구성한다.
  • 고정된 2048-dim ResNet-50 시각 인코더를 사용하여 매 타임스텝마다 8192-dim 관찰 벡터를 생성한다.
  • 실제 포즈를 둘러싼 분포에서 샘플링하여 확률적 관측으로 관측치를 증가시킨다.
  • NQ 헤드를 가진 부트스트랩 더블 듀얼 Q-러닝 아키텍처를 학습하고 Nw개의 병렬 작업자를 활용한다.
  • 학습 및 전이 성능을 평가하기 위해 A2C 및 단일 헤드 n-step Q-learning과 비교한다.

실험 결과

연구 질문

  • RQ1하나의 트래버설로부터 인터랙티브 리플레이를 이용하여 제로 튜닝으로 고정된 목표에 대한 내비게이션 학습이 가능한가?
  • RQ2사전 학습된 시각 특징과 확률적 관찰이 미지의 환경 변형에 대한 학습과 전이에 어떤 영향을 미치는가?
  • RQ3부트스트랩 Q-러닝이 이 로봇 내비게이션 설정에서 다른 RL 방법보다 성능이 우수한가?
  • RQ4다수의 Q-head와 병렬 작업자가 학습 안정성과 성능에 미치는 영향은 무엇인가?

주요 결과

  • 부트스트랩 Q-러닝이 테스트된 RL 방법들 중 최고의 성능을 달성했으며, 다른 알고리즘은 과제 해결에 신뢰성 있게 실패했다.
  • 확률적 관찰로 환경을 증강하면 학습 및 검증 성능이 크게 향상된다.
  • 학습 중에 고정된 사전 학습 시각 인코더를 사용하면 전이가 향상되고 계산 요구량이 감소한다.
  • 확률적 관찰은 검증 환경으로의 전이를 개선하여 보지 못한 변형에 대한 일반화가 더 잘 이루어짐을 시사한다.
  • 사전 학습된 특징과 확률적 증강은 처음부터 학습하는 것보다 학습 및 전이 결과를 극적으로 개선했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.