QUICK REVIEW

[논문 리뷰] Autonomous Driving in Reality with Reinforcement Learning and Image Translation

Nayun Xu, Bowen Tan|arXiv (Cornell University)|2018. 01. 13.

Reinforcement Learning in Robotics참고 문헌 20인용 수 25

한 줄 요약

이 논문은 이미지 세분화를 도메인 적응 기법으로 사용하여 시뮬레이션에서 실제 환경으로의 전이 갭을 해소하는 강화학습 프레임워크를 제안한다. 에이전트는 가상 환경의 시각적 표현을 사용해 TORCS 시뮬레이터에서 훈련되며, 이후 동일한 세분화를 실제 이미지에 적용하여 실제 주행 환경으로 전이된다. 이 방법은 실제 데이터에서 36.6%의 동작 예측 정확도를 달성하여 기본 강화학습보다 뛰어나며, 데이터 효율적이고 안전한 훈련 가능성을 보여준다.

ABSTRACT

Supervised learning is widely used in training autonomous driving vehicle. However, it is trained with large amount of supervised labeled data. Reinforcement learning can be trained without abundant labeled data, but we cannot train it in reality because it would involve many unpredictable accidents. Nevertheless, training an agent with good performance in virtual environment is relatively much easier. Because of the huge difference between virtual and real, how to fill the gap between virtual and real is challenging. In this paper, we proposed a novel framework of reinforcement learning with image semantic segmentation network to make the whole model adaptable to reality. The agent is trained in TORCS, a car racing simulator.

연구 동기 및 목표

세분화를 도메인 적응 메커니즘으로 사용하여 자율주행 강화학습에서 시뮬레이션과 실제 환경 간의 일반화 갭을 해소하기 위해.
대규모 인간 레이블링 데이터셋에 대한 의존도를 줄이기 위해 레이블이 없는 행동 데이터로 에이전트를 훈련시키기 위해.
시각 입력을 핵심 주행 정보를 유지하는 의미적 표현으로 추상화하여 강화학습 에이전트의 강건성과 전이 가능성 향상하기 위해.
안전한 시뮬레이션 내 훈련을 가능하게 하면서도 실제 환경에 배포했을 때도 성능를 유지하기 위해.
강화학습 에이전트의 입력 공간에서 회색조 세분화 이미지와 RGB 세분화 이미지의 성능 비교를 위해.

제안 방법

강화학습 에이전트는 첫 번째인 카메라 시점에서 유도된 의미적 표현을 사용해 TORCS 시뮬레이터에서 훈련된다.
PSPNet 기반의 이미지 번역 네트워크가 원시 시뮬레이터 이미지를 의미적 세분화 출력으로 변환하여 에이전트의 관측값으로 사용한다.
추론 중에는 동일한 PSPNet을 실제 주행 이미지에 적용하여 훈련된 에이전트에 일관된 의미적 입력을 생성한다.
에이전트는 ReLU 활성화 함수를 사용하는 4층 컨볼루션 액터 네트워크를 사용하며, 9개의 이산 동작(스티어링, 가속도, 브레이킹 조합)을 수행한다.
훈련에는 12개의 비동기 스레드를 사용하는 A3C, RMSProp 옵timizer를 사용하며, 하이퍼파ram터는 초깃값 학습률 = 0.01, γ = 0.9, ε = 0.1이다.
모델는 실세계 주행 각도를 사전 정의된 임계값 기반 매핑을 통해 이산 동작으로 매핑하여 성능를 평가한다.

실험 결과

연구 질문

RQ1세분화가 강화학습에서 시뮬레이션과 실제 주행 환경 간의 도메인 갭을 효과적으로 줄일 수 있는가?
RQ2입력으로 회색조 세분화 이미지를 사용할 경우 RGB 세분화 입력보다 일반화 및 성능 향상에 기여하는가?
RQ3실제 환경에서의 레이블 데이터나 미세조정 없이도 시뮬레이션에서 훈련된 강화학습 에이전트의 성능가 실제 주행 데이터로 전이되는가?
RQ4공유된 세분화 네트워크를 기반으로 한 도메인 적응 전략이 자율주행에서 시뮬레이션에서 실제 환경으로의 전이를 향상시킬 수 있는가?
RQ5세분화 품질이 실제 환경 배포에서 최종 정책 성능에 미치는 영향은 무엇인가?

주요 결과

모델은 실제 주행 데이터에서 36.6%의 동작 예측 정확도를 달성하여 기본 강화학습 베이스라인(28.1%)과 동일한 작업에서 성능이 떨어지는 지도학습 모델(52.6%)을 뛰어넘었다.
에이전트의 입력으로 회색조 세분화 이미지를 사용할 경우 RGB 세분화 입력보다 더 나은 일반화와 높은 성능을 달성했다.
실제 환경의 레이블 데이터가 전혀 필요 없이도 시뮬레이션에서 훈련된 정책을 실제 주행 환경으로 성공적으로 전이시켰다.
성능는 세분화 품질에 의해 제한되었으며, 향후 세분화 품질 향상은 정책 성능 향상으로 직접 이어질 것임을 시사했다.
결과적으로 의미적 세분화는 시각적 노이즈와 도메인 이동을 줄이며 핵심 주행 정보를 유지하는 효과적인 추상화 계층으로 기능한다.
공유된 세분화 네트워크를 통해 가상 환경과 실제 환경의 에이전트 입력 분포를 일치시킴으로써 이 프레임워크는 시뮬레이션에서 실제 환경으로의 갭을 효과적으로 줄였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.