QUICK REVIEW

[논문 리뷰] Realtime Collision Avoidance for Mobile Robots in Dense Crowds using Implicit Multi-sensor Fusion and Deep Reinforcement Learning

Jing Liang, Utsav Patel|arXiv (Cornell University)|2020. 04. 07.

Evacuation and Crowd Dynamics참고 문헌 29인용 수 25

한 줄 요약

CrowdSteer는 2D 라이다와 깊이 카메라 데이터의 암묵적 다중 센서 융합을 사용하여 조밀한 군중에서 실시간 충돌 회피를 위한 엔드 투 엔드 딥 강화학습 방법을 제안한다. 고정밀 3차원 시뮬레이션에서 Proximal Policy Optimization (PPO)를 통해 훈련된 이 방법은 복잡하고 가림이 있는 환경, 예를 들어 복도와 교차로에서 매끄럽고 충돌 없는 궤적을 달성하며, 터틀봇과 잭럴과 같은 실제 로봇에서 이전 방법들보다 성공률, 궤적 매끄러움, 평균 목표도달 시간 측면에서 뛰어난 성능을 보였다.

ABSTRACT

We present a novel learning-based collision avoidance algorithm, CrowdSteer, for mobile robots operating in dense and crowded environments. Our approach is end-to-end and uses multiple perception sensors such as a 2-D lidar along with a depth camera to sense surrounding dynamic agents and compute collision-free velocities. Our training approach is based on the sim-to-real paradigm and uses high fidelity 3-D simulations of pedestrians and the environment to train a policy using Proximal Policy Optimization (PPO). We show that our learned navigation model is directly transferable to previously unseen virtual and dense real-world environments. We have integrated our algorithm with differential drive robots and evaluated its performance in narrow scenarios such as dense crowds, narrow corridors, T-junctions, L-junctions, etc. In practice, our approach can perform real-time collision avoidance and generate smooth trajectories in such complex scenarios. We also compare the performance with prior methods based on metrics such as trajectory length, mean time to goal, success rate, and smoothness and observe considerable improvement.

연구 동기 및 목표

기존 방법들이 가림과 예측 불가능한 보행자 운동으로 인해 실패하는 조밀하고 역동적인 군중에서 실시간으로 신뢰할 수 있는 충돌 회피 문제를 해결하기 위해.
기존의 학습 기반 및 고전적 주행 방법에서 흔히 발생하는 진동 행동을 줄이고 궤적의 매끄러움을 향상시키기 위해.
이전에 본 적 없는 실내 환경에서 고보행자 밀도를 가진 환경에서 실용적인 시뮬레이션에서 실제 환경으로의 전이를 가능하게 하기 위해.
명시적인 운동 예측 없이도 복잡한 동적 장애물 상호작용을 암묵적으로 포착하는 센서 융합 전략을 개발하기 위해.
좁은 복도, T자 교차로, L자 교차로 등 다양한 실제 시나리오에서 높은 가림과 예측 불가능한 보행자 행동을 포함한 성능 평가를 수행하기 위해.

제안 방법

로봇 주행을 조밀한 군중에서 부분 관측 가능한 마르코프 결정 과정(POMDP)으로 설정하고, Proximal Policy Optimization(PPO)를 사용한 딥 강화학습으로 해결한다.
명시적인 특징 엔지니어링 없이 2D 라이다와 RGB-D 카메라의 원시 입력을 처리함으로써 암묵적 다중 센서 융합을 구현하여 정책이 복잡한 장애물 상호작용을 학습할 수 있도록 한다.
궤적의 매끄러움과 안전성을 향상시키기 위해 진동 행동과 장애물에의 가까이 위치에 대한 페널티를 포함한 맞춤형 보상 함수를 사용한다.
실제 보행자 역학이 구현된 고정밀 3차원 시뮬레이션 환경을 사용하여 정책을 훈련시켜 시뮬레이션과 실제 환경 간의 격차를 줄인다.
훈련된 정책를 직접 미세 조정 없이 차량형 로봇(Turtlebot 2 및 Clearpath Jackal)에 배포하여 실시간 추론을 가능하게 한다.
다양한 보행자 밀도(최대 3명/m²)와 함께 가림이 있고 좁은 환경을 포함한 시뮬레이션 및 실제 환경에서의 시나리오에서 시스템을 평가한다.

실험 결과

연구 질문

RQ12D 라이다와 깊이 카메라 데이터의 암묵적 다중 센서 융합이 단일 센서 방법에 비해 조밀하고 가림이 있는 군중에서의 충돌 회피 성능을 향상시키는가?
RQ2고정밀 시뮬레이션에서 훈련된 PPO 기반 딥 강화학습 정책이 미세 조정 없이 실제 조밀한 군중 주행 환경으로 일반화되는가?
RQ3보상 함수에 진동 페널티를 통합함으로써 동적 주행 작업에서 궤적의 매끄러움이 얼마나 향상되는가?
RQ4CrowdSteer은 높은 보행자 밀도와 가림이 있는 복잡한 실제 시나리오, 예를 들어 T자 교차로, L자 교차로, 좁은 복도에서 어떻게 성능을 내는가?
RQ5매우 높은 밀도(>4명/m²), 반사성 표면, 또는 좁은 길과 같은 극한 조건에서의 실패 유형은 무엇인가?

주요 결과

CrowdSteer는 테스트한 모든 실제 시나리오에서 100% 성공률를 기록했으며, 최대 3명/m²의 조밀한 군중, T자 교차로, L자 교차로에서도 충돌 없이 작동했다.
빈 공간과 정적 장애물 환경에서, 진동 페널티가 없는 경우 평균 궤적 진동 횟수는 9.8에서, 페널티가 있는 경우 2.0으로 감소하여 매끄러움 향상이 뚜렷하게 나타났다.
Fan 등(2023)의 방법과 비교했을 때, CrowdSteer는 더 매끄러운 궤적을 생성했으며, 특히 가림이 있는 복도나 갑작스럽게 나타나는 장애물 상황에서 진동 행동을 피하는 데 성공했다.
제거 실험 결과, 깊이 카메라만 사용할 경우 성공률가 100%가 아니었고, 가림에 더 민감했으며, 융합된 센서 입력이 신뢰성 향상에 크게 기여했다.
훈련 중에 존재하지 않았던 높은 보행자 무작위성과 역동적 운동을 포함한 새로운 실제 환경으로의 일반화 성능이 뛰어났다.
실패 사례로는 매우 넓은 공간에서의 진동 행동, 예민한 각도 전환 문제, 반사성 또는 투명한 표면 및 고강도 적외선 간섭이 있는 환경에서의 제한점이 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.