QUICK REVIEW

[논문 리뷰] Deep Reinforcement Learning with Successor Features for Navigation across Similar Environments

Jingwei Zhang, Jost Tobias Springenberg|arXiv (Cornell University)|2016. 12. 16.

Reinforcement Learning in Robotics참고 문헌 32인용 수 33

한 줄 요약

이 논문은 유사한 미로 환경 간의 로봇 주행을 위해 원시 감각 입력만을 사용하여 빠른 전이 학습을 가능하게 하는 후속 특징 기반 딥 강화 학습 알고리즘을 제안한다. 공유된 후속 특징 표현을 학습함으로써 이전에 해결된 작업들로부터 지식을 전이함으로써, 명시적 위치 추정, 매핑 또는 계획 없이도 새로운 환경에서 학습 시간을 최대 90% 감소시키면서 성능를 유지한다.

ABSTRACT

In this paper we consider the problem of robot navigation in simple maze-like environments where the robot has to rely on its onboard sensors to perform the navigation task. In particular, we are interested in solutions to this problem that do not require localization, mapping or planning. Additionally, we require that our solution can quickly adapt to new situations (e.g., changing navigation goals and environments). To meet these criteria we frame this problem as a sequence of related reinforcement learning tasks. We propose a successor feature based deep reinforcement learning algorithm that can learn to transfer knowledge from previously mastered navigation tasks to new problem instances. Our algorithm substantially decreases the required learning time after the first task instance has been solved, which makes it easily adaptable to changing environments. We validate our method in both simulated and real robot experiments with a Robotino and compare it to a set of baseline methods including classical planning-based navigation.

연구 동기 및 목표

명시적 위치 추정, 매핑 또는 계획에 의존하지 않고, 유사한 미로 환경에서의 로봇 주행 문제를 해결한다.
전이 학습을 통해 새로운 주행 목표와 환경에 빠르게 적응할 수 있도록 한다.
이전 작업에서의 지식을 유지하면서 효율적으로 새로운 작업을 학습할 수 있는 강화 학습 방법을 개발한다.
시뮬레이션 및 실제 로봇 실험을 통해 시각 및 깊이 센서 입력을 기반으로 한 방법의 유효성을 검증한다.
후속 특징이 원시 감각 데이터로부터 효과적인 표현 학습을 지원할 수 있음을 보여준다.

제안 방법

전이 학습을 가능하게 하기 위해 주행을 관련된 강화 학습 작업의 연속으로 공식화한다.
후속 특징(SFs)을 사용하여 작업 간 상태가치 함수의 공유 표현을 학습함으로써, 역학적 특성과 보상 설계를 분리한다.
딥 네ural 네트워크를 후속 특징와 통합하여 원시 시각 및 깊이 센서 입력을 처리한다.
후속 특징을 사용하여 상태 가치를 예측하는 딥 Q-네트워크를 훈련함으로써, 새로운 작업에 대한 효율적인 피니팅을 가능하게 한다.
소스 환경에서 사전 훈련된 SF 표현을 타겟 환경의 학습 초기화에 활용하여 재훈련을 최소화한다.
SF 표현에 대해 후행 회귀 분석기를 훈련시어, 에이전트가 암묵적으로 위치 추정 능력을 학습했는지 확인한다.

실험 결과

연구 질문

RQ1후속 특징은 유사한 환경 간의 로봇 주행에 대해 딥 강화 학습에서 빠른 전이 학습을 가능하게 할 수 있는가?
RQ2후속 특징 표현은 원시 감각 입력에서 효과적인 자기 위치 추정 및 정책 일반화를 지원하는가?
RQ3표준 DQN 및 계획 기반 베이스라인과 비교했을 때, 제안된 방법은 샘플 효율성과 학습 속도 측면에서 어떻게 성능을 내는가?
RQ4시뮬레이션과 실제 환경 간의 지식 전이가 시각 또는 깊이 센서 데이터만을 사용해 어느 정도 달성될 수 있는가?
RQ5SF-RL 방법은 새로운 주행 목표와 환경에 적응하면서 이전에 해결된 작업의 성능를 유지할 수 있는가?

주요 결과

SF-RL 방법은 사전 훈련된 모델에서 새로운 환경으로 전이할 때 학습 시간을 최대 90% 감소시켰으며, 전이 후 Map3/Map4에서 50/50 성공률을 기록했다.
실제 환경 실험에서, 시뮬레이션 모델에서 피니팅을 수행한 결과, 약 8시간의 실제 경험(2Hz에서 60,000단계) 내에 만족스러운 성능에 도달했다.
후속 특징 표현은 위치 추정에 필요한 충분한 정보를 포함하고 있었으며, 보류된 궤적에서 높은 정확도를 기록한 자세 회귀 분석기를 통해 이를 확인했다.
시뮬레이션된 깊이 이미지에서 실제 깊이 데이터로의 전이가 센서 노이즈와 현실성의 차이에도 불구하고 뚜렷한 성능 향상을 이끌어냈다.
모든 시뮬레이션 및 실제 환경 설정에서 베이스라인 DQN 및 감독 기반 이민 학습보다 뛰어난 성능를 보였으며, 특히 샘플 효율성 측면에서 뛰어났다.
이 방법은 시뮬레이션과 현실 간 도메인 이동에 대해 뛰어난 내성적 특성을 보였으며, 실질적인 미로에서 Robotino 로봇에 대한 배포를 위해 광범위한 재훈련 없이도 가능했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.