QUICK REVIEW

[논문 리뷰] One-Shot Reinforcement Learning for Robot Navigation with Interactive Replay

Jake Bruce, Niko Sünderhauf|arXiv (Cornell University)|2017. 11. 28.

Reinforcement Learning in Robotics참고 문헌 30인용 수 53

한 줄 요약

이 논문은 하나의 실제 탐험에서 인터랙티브 리플레이를 사용하고, 고정된 사전 학습 시각 인코더와 확률적 관찰 증강으로 파인 튜닝 없이 제로샷 전이를 달성하기 위한 로봇 내비게이션의 오프라인 학습을 제시한다.

ABSTRACT

Recently, model-free reinforcement learning algorithms have been shown to solve challenging problems by learning from extensive interaction with the environment. A significant issue with transferring this success to the robotics domain is that interaction with the real world is costly, but training on limited experience is prone to overfitting. We present a method for learning to navigate, to a fixed goal and in a known environment, on a mobile robot. The robot leverages an interactive world model built from a single traversal of the environment, a pre-trained visual feature encoder, and stochastic environmental augmentation, to demonstrate successful zero-shot transfer under real-world environmental variations without fine-tuning.

연구 동기 및 목표

하나의 환경 트래버설을 인터랙티브 월드 모델을 통해 학습하여 실제 상호작용을 줄인다.
작은 학습 세트에 과적합을 방지하기 위해 고정된 사전 학습 시각 인코더를 활용한다.
일관된 일반화 및 전이를 개선하기 위해 학습을 확률적 관찰 증강으로 보강한다.
강인하고 전이 가능한 내비게이션 성능을 위한 부트스트랩 Q-러닝을 평가한다.

제안 방법

단일 트래버설에서 포즈 그래프를 구축하고 그들의 인터랙티브 리플레이 버퍼를 만들어 가상 학습 환경을 구성한다.
고정된 2048-dim ResNet-50 시각 인코더를 사용하여 매 타임스텝마다 8192-dim 관찰 벡터를 생성한다.
실제 포즈를 둘러싼 분포에서 샘플링하여 확률적 관측으로 관측치를 증가시킨다.
NQ 헤드를 가진 부트스트랩 더블 듀얼 Q-러닝 아키텍처를 학습하고 Nw개의 병렬 작업자를 활용한다.
학습 및 전이 성능을 평가하기 위해 A2C 및 단일 헤드 n-step Q-learning과 비교한다.

실험 결과

연구 질문

RQ1하나의 트래버설로부터 인터랙티브 리플레이를 이용하여 제로 튜닝으로 고정된 목표에 대한 내비게이션 학습이 가능한가?
RQ2사전 학습된 시각 특징과 확률적 관찰이 미지의 환경 변형에 대한 학습과 전이에 어떤 영향을 미치는가?
RQ3부트스트랩 Q-러닝이 이 로봇 내비게이션 설정에서 다른 RL 방법보다 성능이 우수한가?
RQ4다수의 Q-head와 병렬 작업자가 학습 안정성과 성능에 미치는 영향은 무엇인가?

주요 결과

부트스트랩 Q-러닝이 테스트된 RL 방법들 중 최고의 성능을 달성했으며, 다른 알고리즘은 과제 해결에 신뢰성 있게 실패했다.
확률적 관찰로 환경을 증강하면 학습 및 검증 성능이 크게 향상된다.
학습 중에 고정된 사전 학습 시각 인코더를 사용하면 전이가 향상되고 계산 요구량이 감소한다.
확률적 관찰은 검증 환경으로의 전이를 개선하여 보지 못한 변형에 대한 일반화가 더 잘 이루어짐을 시사한다.
사전 학습된 특징과 확률적 증강은 처음부터 학습하는 것보다 학습 및 전이 결과를 극적으로 개선했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.