QUICK REVIEW

[논문 리뷰] DeepRacer: Educational Autonomous Racing Platform for Experimentation with Sim2Real Reinforcement Learning

Bharathan Balaji, Sunil Mallya|arXiv (Cornell University)|2019. 11. 05.

Reinforcement Learning in Robotics참고 문헌 77인용 수 32

한 줄 요약

DeepRacer는 1/18 스케일 자동차를 사용하여 시뮬레이션에서 종단 간 강화학습(RL) 훈련을 가능하게 하고, PPO, 도메인 랜덤라이제이션, 강력한 평가를 통해 견고한 sim2real 전이를 실현하는 확장 가능한 교육용 자율 주행 플랫폼입니다. <5분의 훈련으로 실세계 주행을 달성하였으며, 실세계 미세조정이나 전문가 데이터 없이도 성공적인 실세계 구현을 보여줍니다.

ABSTRACT

DeepRacer is a platform for end-to-end experimentation with RL and can be used to systematically investigate the key challenges in developing intelligent control systems. Using the platform, we demonstrate how a 1/18th scale car can learn to drive autonomously using RL with a monocular camera. It is trained in simulation with no additional tuning in physical world and demonstrates: 1) formulation and solution of a robust reinforcement learning algorithm, 2) narrowing the reality gap through joint perception and dynamics, 3) distributed on-demand compute architecture for training optimal policies, and 4) a robust evaluation method to identify when to stop training. It is the first successful large-scale deployment of deep reinforcement learning on a robotic control agent that uses only raw camera images as observations and a model-free learning method to perform robust path planning. We open source our code and video demo on GitHub: https://git.io/fjxoJ.

연구 동기 및 목표

연구자 및 학부생이 로봇 강화학습에 접근하는 데 있어 장벽을 낮추기 위해 종단 간 sim2real RL 실험을 위한 통합적이고 접근 가능한 플랫폼을 제공하는 것.
도메인 랜덤라이제이션, 강력한 평가, 분산 훈련을 통합한 확장 가능한 클라우드 기반 아키텍처를 통해 RL의 sim2real 격차를 해소하는 것.
원시 카메라 관측치를 사용하는 모델-프리(end-to-end) RL이 실세계 로봇 제어로 성공적으로 전이될 수 있음을 입증하는 것. 이는 전문가 지시나 실세계 데이터 없이도 가능하다.
요청 기반 클라우드 컴퓨팅을 활용해 여러 트랙, 조명 조건, 센서 변형을 고려한 다수의 트랙에서 RL 정책의 빠르고 확장 가능한 훈련 및 평가를 가능하게 하는 것.

제안 방법

플랫폼은 시뮬레이션 롤아웃과 정책 훈련을 분리하는 분리형 롤아웃 아키텍처를 사용하여, 시뮬레이션 클러스터와 훈련 워커를 별도로 확장할 수 있도록 합니다.
원시 회색조 이미지를 관측치로 사용하고 이산 펌프/스티어링 동작을 사용하여 Proximal Policy Optimization(PPO) 알고리즘을 정책 훈련에 적용합니다.
정책 일반화를 향상시키기 위해 행동(예: 10% 노이즈)과 관측치(예: 랜덤 색상, 밝기, 그림자, 소금-후추 노이즈)에 도메인 랜덤라이제이션을 적용합니다.
정책이 다양한 조건에서 일반화하는지 확인하기 위해, 행동 노이즈, 역방향 주행, 다수의 시작 위치 등의 랜덤 조건에서 정책을 평가하는 강력한 평가를 수행합니다.
분산 롤아웃을 활용해 여러 트랙을 동시에 훈련하고, 요청 기반 확장이 가능한 클라우드 기반 컴퓨팅과 통합합니다.
1/18 스케일 자동차의 校정된 Gazebo 시뮬레이션 모델은 현실적인 동역학, 센서 모델, 다양한 트랙 레이아웃을 포함하여 다양한 훈련 및 평가 시나리오를 지원합니다.

실험 결과

연구 질문

RQ1실세계 주행 트랙에서 실세계 미세조정 없이도 시뮬레이션에서 원시 카메라 이미지만을 사용해 훈련된 모델-프리 종단 간 RL 정책이 성공적으로 주행할 수 있는가?
RQ2오직 시각적 관측치만을 사용할 때, 도메인 랜덤라이제이션이 로봇 제어의 sim2real 격차를 얼마나 효과적으로 줄이는가?
RQ3어떤 평가 프로토콜이 실세계 성능을 신뢰성 있게 예측하고 시뮬레이션 전용 조건에 대한 과적합을 방지하는가?
RQ4분산형 요청 기반 클라우드 컴퓨팅은 다양한 환경에서 정책 일반화를 유지하면서 훈련을 얼마나 가속화할 수 있는가?
RQ5엔트로피 보너스, 정규화, 최대 펌프 속도 등의 하이퍼파라미터가 sim2real 전이 성능에 어떤 영향을 미치는가?

주요 결과

PPO로 훈련된 정책는 5분 미만의 훈련으로 sim2real 전이를 달성하였으며, 1/18 스케일 자동차에서 실세계 주행에 성공하였습니다.
다양한 랜덤 평가 조건(예: 행동 노이즈, 역방향 주행)에서 일관되게 성능을 유지한 정책는 실세계로의 일반화가 잘 되었고, 단순한 평가 방식은 실세계 성능을 예측하지 못했습니다.
관측 이미지에 대한 색상 강조 조정이 sim2real 전이에 가장 효과적인 도메인 랜덤라이제이션 기법이었습니다.
엔트로피 보너스를 0.001로 줄이고, 0.3 확률로 드롭아웃을 적용함으로써 정책의 강인성과 실세계 성능이 크게 향상되었습니다.
최대 펌프 속도를 2.33 m/s로 설정하고, 색상 랜덤라이제이션, L2 정규화, 드롭아웃을 포함한 훈련이 가장 우수한 전체 성능을 보였으며, 실트랙에서 11초 랩(1.6 m/s)을 기록했습니다.
트랙 B에서 훈련한 정책는 장기간 훈련을 거쳐 트랙 A로 일반화되었지만, 초기 체크포인트는 실패하여 강력한 평가와 훈련 기간의 중요성을 입증했습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.