QUICK REVIEW

[논문 리뷰] CrowdMove: Autonomous Mapless Navigation in Crowded Scenarios

Tingxiang Fan, Xinjing Cheng|arXiv (Cornell University)|2018. 07. 19.

Evacuation and Crowd Dynamics참고 문헌 20인용 수 47

한 줄 요약

본 논문은 강인한 정책 기울기 강화학습을 이용한 일반화된 3M 훈련 프레임워크를 제시하여 맵리스 탐색을 가능하게 하며, 혼잡한 환경에서 다양한 로봇 유형에 대한 안전한 충돌 회피를 가능하게 한다. 시뮬레이션에서 학습된 정책은 다양한 플랫폼과 시나리오에 대해 미세 조정 없이 실제 로봇으로 이전된다.

ABSTRACT

Navigation is an essential capability for mobile robots. In this paper, we propose a generalized yet effective 3M (i.e., multi-robot, multi-scenario, and multi-stage) training framework. We optimize a mapless navigation policy with a robust policy gradient algorithm. Our method enables different types of mobile platforms to navigate safely in complex and highly dynamic environments, such as pedestrian crowds. To demonstrate the superiority of our method, we test our methods with four kinds of mobile platforms in four scenarios. Videos are available at https://sites.google.com/view/crowdmove.

연구 동기 및 목표

SLAM이나 맵에 의존하지 않고 고도로 동적인 군중 속에서 탐색하기 위한 강건한 맵리스 로컬 플래너를 개발한다.
확장 가능한 학습 프레임워크를 통해 여러 로봇 유형, 시나리오 및 단계 간 일반화를 가능하게 한다.
충돌 회피와 엔드투엔드 내비게이션을 최적화하기 위해 정책 기울기 방법을 포함한 강화 학습을 활용한다.
학습된 정책이 시뮬레이션에서 실제 플랫폼으로 재훈련 없이 이전 가능함을 시연한다.

제안 방법

로컬 플래너를 2D 레이저 읽기, 상대 목표, 현재 속도를 입력으로 받아 조타 명령으로 매핑하는 신경망으로 모델링한다.
병렬 다중 로봇 프레임워크에서 PPO 기반 정책 최적화를 사용하여 연속 액션 공간으로 학습한다.
강건성을 높이기 위해 3M 프레임워크: multi-robot, multi-scenario, multi-stage 학습을 활용한다.
목표 달성, 충돌 페널티, 매끄러움 페널티를 특정 계수와 함께 결합한 보상 설계를 사용한다.
Stage를 사용한 시뮬레이션 시나리오로 학습한 다음 최소한의 적응으로 실제 로봇으로 이전한다.
가우시안 정책의 평균 속도를 출력하는 네트워크를 제공하며, 학습 가능한 로그 표준 편차를 가진다.

실험 결과

연구 질문

RQ1강화 학습으로 학습된 맵리스 충돌 회피 정책이 서로 다른 로봇 플랫폼 간 일반화가 가능한가?
RQ2다중 로봇, 다중 시나리오, 다중 단계 학습 프레임워크가 매우 동적인 혼잡한 환경에서 강건성을 향상시키는가?
RQ3시뮬레이션에서 학습된 정책이 미세 조정 없이 실제 로봇으로 이전될 수 있는가?
RQ4밀집한 보행자 무리에서 목표 도달과 충돌 회피에서 학습된 정책의 효과는 얼마나 되는가?
RQ5보상 설계와 커리큘럼 학습이 학습 효율성과 성능에 미치는 영향은 무엇인가?

주요 결과

이 접근법은 복잡한 군중 속에서 비정역 로봇의 충돌 없는 내비게이션을 가능하게 한다.
강건한 정책은 재훈련 없이도 다양한 모바일 플랫폼 간 일반화한다.
시뮬레이션에서 학습된 정책은 Turtlebot, Igor, 인간형 서비스 로봇, 자율 쇼핑 카트와 같은 실제 로봇으로 이전된다.
두 단계 커리큘럼 학습은 수렴을 가속하고 무에서 시작하는 학습보다 더 높은 보상을 산출한다.
병렬 다중 로봇 학습은 데이터 수집과 정책 최적화를 현저히 가속화한다.
다양한 군중 시나리오에서 신뢰할 수 있는 장애물 및 보행자 회피가 실험에서 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.