Skip to main content
QUICK REVIEW

[논문 리뷰] Curiosity-driven Exploration for Mapless Navigation with Deep Reinforcement Learning

Oleksii Zhelo, Jingwei Zhang|arXiv (Cornell University)|2018. 04. 02.
Robotics and Sensor-Based Localization참고 문헌 4인용 수 83
한 줄 요약

논문은 DRL mapless navigation에 Intrinsic Curiosity Module (ICM)을 통한 내재적 호기심으로 보강하여 학습 효율성과 미지의 맵에 대한 일반화를 향상시켰다.

ABSTRACT

This paper investigates exploration strategies of Deep Reinforcement Learning (DRL) methods to learn navigation policies for mobile robots. In particular, we augment the normal external reward for training DRL algorithms with intrinsic reward signals measured by curiosity. We test our approach in a mapless navigation setting, where the autonomous agent is required to navigate without the occupancy map of the environment, to targets whose relative locations can be easily acquired through low-cost solutions (e.g., visible light localization, Wi-Fi signal localization). We validate that the intrinsic motivation is crucial for improving DRL performance in tasks with challenging exploration requirements. Our experimental results show that our proposed method is able to more effectively learn navigation policies, and has better generalization capabilities in previously unseen environments. A video of our experimental results can be found at https://goo.gl/pWbpcF.

연구 동기 및 목표

  • 환경 맵이 사용 불가능한 맵리스 로봇 네비게이션에서 효과적인 탐색을 촉진한다.
  • 정책 학습을 안내하기 위해 내재적 동기를 외재적 보상과 통합한다.
  • 학습된 정책의 보이지 않는 환경과 구조에 대한 일반화를 평가한다.

제안 방법

  • 외부 보상과 내재 보상을 결합한 신호 R = Re + liRi를 사용하여 A3C 강화학습을 확장한다.
  • 특징 추출기 φ, 역모델 ψi, 순방향 모델 ψf로 구성된 Intrinsic Curiosity Module (ICM)을 구현하여 예측 오차로부터 내재 보상 Ri를 생성한다.
  • 비동기 액터(A3C)를 사용하여 외부 보상과 내재 보상의 혼합으로 학습시켜 새로운 상태의 탐색을 촉진한다.
  • 상태로 레이저 거리 측정 센서와 상대 목표 포즈를 사용하며; 행동은 이산적이다(직진, 좌회전, 우회전).
  • ICM 손실은 역모델 교차 엔트로피와 순방향 모델 회귀를 결합하여 φ를 형성하고 유용한 표현을 촉진한다.

실험 결과

연구 질문

  • RQ1intrinsic curiosity가 맵리스 탐색을 위한 DRL의 샘플 효율성과 수렴에 영향을 미치는가?
  • RQ2내재적 동기가 서로 다른 레이아웃의 보이지 않는 환경에 대한 일반화에 어떤 영향을 미치는가?
  • RQ3호기심 주도 탐색이 엔트로피 기반 탐색과 비교하여 (LSTM 유무, 엔트로피 유무 조건에서) 어떤 경우에 더 우수한가?
  • RQ4내재 보상과 외재 보상의 트레이드오프가 정책 탐색에 미치는 영향은 무엇인가?

주요 결과

Exploration StrategyMap1 Success (%)Map1 Steps (mean ± std)
A3C-88.3173.063 ± 123.277
Entropy96.7102.220 ± 90.230
ICM98.791.230 ± 62.511
ICM+Entropy10075.160 ± 52.075
  • ICM 기반 탐색은 학습 맵에서 엔트로피만 사용하거나 호기심이 없는 기준선보다 더 높은 성공률과 종종 더 짧은 경로를 보인다.
  • Map1에서 ICM은 평균 91.2걸음(표준편차 62.5)으로 98.7%의 성공을 달성했으며, strongest non-ICM baseline은 88.3%와 173.1걸음을 보였다.
  • ICM과 엔트로피를 결합하면 성능과 안정성이 더욱 향상되어 Map1에서 LSTM과 함께 평균 75.2걸음(표준편차 52.1)로 100% 성공을 달성한다.
  • ICM은 보이지 않는 맵(Map2–4)에 대한 일반화를 개선하며, 특히 더 도전적인 배치에서 ICM+Entropy가 종종 더 나은 또는 비교 가능한 성공과 더 낮은 단계 수를 보인다.
  • 결과는 호기심이 국소 최소값을 탈피하는 데 도움을 주고 에이전을 새로운 정보가 풍부한 상태로 이끌어 학습을 가속한다는 것을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.