QUICK REVIEW

[논문 리뷰] Towards Optimally Decentralized Multi-Robot Collision Avoidance via Deep Reinforcement Learning

Pinxin Long, Tingxiang Fan|arXiv (Cornell University)|2017. 09. 28.

Reinforcement Learning in Robotics참고 문헌 21인용 수 34

한 줄 요약

이 논문은 다중 시나리오, 다중 단계의 딥 강화학습 프레임워크를 제안하여 다중 로봇 시스템을 위한 완전히 분산형, 센서 수준의 충돌 회피 정책을 훈련한다. 원시 LiDAR 유사 센서 입력을 직접 조향 명령으로 매핑함으로써, 복잡하고 대규모 시나리오—예를 들어 100대의 로봇 시스템과 이종 로봇 팀 포함—에서도 높은 성공률과 효율적인 주행을 달성하며, 훈련 분포를 초월한 강력한 일반화 능력을 입증한다.

ABSTRACT

Developing a safe and efficient collision avoidance policy for multiple robots is challenging in the decentralized scenarios where each robot generate its paths without observing other robots' states and intents. While other distributed multi-robot collision avoidance systems exist, they often require extracting agent-level features to plan a local collision-free action, which can be computationally prohibitive and not robust. More importantly, in practice the performance of these methods are much lower than their centralized counterparts. We present a decentralized sensor-level collision avoidance policy for multi-robot systems, which directly maps raw sensor measurements to an agent's steering commands in terms of movement velocity. As a first step toward reducing the performance gap between decentralized and centralized methods, we present a multi-scenario multi-stage training framework to find an optimal policy which is trained over a large number of robots on rich, complex environments simultaneously using a policy gradient based reinforcement learning algorithm. We validate the learned sensor-level collision avoidance policy in a variety of simulated scenarios with thorough performance evaluations and show that the final learned policy is able to find time efficient, collision-free paths for a large-scale robot system. We also demonstrate that the learned policy can be well generalized to new scenarios that do not appear in the entire training period, including navigating a heterogeneous group of robots and a large-scale scenario with 100 robots. Videos are available at https://sites.google.com/view/drlmaca

연구 동기 및 목표

중앙집중식과 분산형 다중 로봇 충돌 회피 간의 성능 격차를 해소하기 위해, 전역 상태나 통신에 의존하지 않는 센서 수준의 정책을 개발한다.
조정에 민감하고, 완벽한 센서 측정이 필요하며, 확장성에 떨어지는 에이전트 수준 방법의 한계를 극복한다.
세부 조정 없이도 예측할 수 없는 시나리오, 이종 로봇 및 대규모 시스템(예: 100대의 로봇)에 대한 강력한 일반화를 가능하게 한다.
다양한 환경과 다중 단계 학습을 통합한 훈련 프레임워크를 설계하여 정책의 강건성과 효율성을 향상시킨다.

제안 방법

정책 기반 강화학습 알고리즘을 사용하여 원시 센서 측정값(예: LiDAR 스캔)을 직접 속도 명령으로 매핑함으로써, 명시적 상태 추정을 생략한다.
이중 단계 훈련 프레임워크를 구현한다: 1단계는 무작위 단일 시나리오에서 기본 충돌 회피를 학습하고, 2단계는 다양한 복잡한 시나리오에서 정책의 강건성을 향상시키기 위해 정밀 조정을 수행한다.
다중 시나리오, 다중 단계 커리큘럼을 활용하여 일반화 능력을 향상시키며, 2단계 정책은 복도, 그룹 통과, 장애물 다수 존재 환경 등을 포함한 광범위한 환경 분포에서 훈련된다.
모든 로봇에 동일한 정책을 공유함으로써, 명시적 조율이나 통신 없이도 일관되고 협력적인 행동을 가능하게 한다.
세그멘테이션, 추적, 인식 파이프라인을 요구하지 않아 계산 오버헤드와 인식 불확실성을 감소시킨다.
훈련 중에 조밀하고 희박하며 형태가 조정된 보상 함수를 사용하여 성공률과 주행 효율성(시간 및 거리)을 동시에 최적화한다.

실험 결과

연구 질문

RQ1딥 강화학습을 통해 훈련된 완전히 분산형, 센서 수준의 충돌 회피 정책이 복잡하고 대규모인 다중 로봇 시나리오에서 중앙집중식 방법과 유사한 성능을 달성할 수 있는가?
RQ2다중 시나리오, 다중 단계 훈련이 분산형 충돌 회피 정책의 예측 불가능한 환경과 로봇 구성에 대한 일반화 능력을 어떻게 향상시키는가?
RQ3동일한 로봇으로만 훈련된 정책이 이종 로봇 팀이나 고정 속도로 이동하는 비협력적 에이전트로의 일반화 능력은 어느 정도인가?
RQ4에이전트 수준 방법이 전역 플래너에 의존하기 때문에 실패하는, 장애물이 많은 좁은 복도와 같은 고밀도 제약 환경에서 제안된 방법이 효과적으로 주행할 수 있는가?

주요 결과

100대의 로봇이 반대편 위치로 이동하는 무작위 시나리오에서 2단계 정책는 98%의 성공률을 기록하여 확장성과 강건성을 입증했다.
세부 조정 없이도 이종 로봇 팀(예: 원형 및 직사각형 모양의 로봇 혼합)에 효과적으로 일반화되어 충돌 없는 주행을 달성했다.
장애물이 있는 복도 시나리오에서 NH-ORCA는 전역 경로 계획 및 장애물 지도 의존성으로 인해 작업을 완수하지 못한 반면, 2단계 정책만 성공적으로 작업을 완료했다.
그룹 통과 및 교환 시나리오에서 NH-ORCA 대비 평균 추가 시간을 40% 감소시키고 추가 거리를 30% 감소시켜, 더 뛰어난 협업 및 효율성을 보였다.
비협력적 환경에서도 높은 성능을 유지하여, 훈련 분포 외부에 있는 고속으로 직선 이동하는 직사각형 모양의 로봇을 성공적으로 피했으며, 이는 정책의 강건성을 입증한다.
다중 시나리오 훈련 프레임워크는 과적합을 크게 감소시키고 일반화 능력을 향상시켰으며, 2단계 정책가 다양한 복잡한 환경에서 1단계 정책보다 뛰어난 성능을 보여 이로 인해 증명되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.