QUICK REVIEW

[논문 리뷰] SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for Autonomous Driving

Ming Zhou, Jun Luo|arXiv (Cornell University)|2020. 10. 19.

Reinforcement Learning in Robotics참고 문헌 49인용 수 104

한 줄 요약

SMARTS는 현실적이고 다양한 에이전트 상호 작용을 시뮬레이션하고 벤치마크, 시나리오 및 평가 지표를 제공함으로써 자율 주행을 위한 확장 가능한 다중 에이전트 강화학습(MARL)을 가능하게 하는 오픈 소스 플랫폼입니다.

ABSTRACT

Multi-agent interaction is a fundamental aspect of autonomous driving in the real world. Despite more than a decade of research and development, the problem of how to competently interact with diverse road users in diverse scenarios remains largely unsolved. Learning methods have much to offer towards solving this problem. But they require a realistic multi-agent simulator that generates diverse and competent driving interactions. To meet this need, we develop a dedicated simulation platform called SMARTS (Scalable Multi-Agent RL Training School). SMARTS supports the training, accumulation, and use of diverse behavior models of road users. These are in turn used to create increasingly more realistic and diverse interactions that enable deeper and broader research on multi-agent interaction. In this paper, we describe the design goals of SMARTS, explain its basic architecture and its key features, and illustrate its use through concrete multi-agent experiments on interactive scenarios. We open-source the SMARTS platform and the associated benchmark tasks and evaluation metrics to encourage and empower research on multi-agent learning for autonomous driving. Our code is available at https://github.com/huawei-noah/SMARTS.

연구 동기 및 목표

자율 주행(AD)에서 현실적이고 다양한 다중 에이전트 상호 작용의 필요성을 제고합니다.
자율 주행에서 확장 가능한 MARL 연구를 지원하기 위한 SMARTS 설계 목표와 아키텍처를 설명합니다.
사회적 에이전트의 초기화(부트스트래핑)와 모듈식 확장 가능한 시뮬레이션 프레임워크를 소개합니다.
MARL 친화적 관찰, 행동 및 보상 인터페이스와 벤치마크 세트를 제공합니다.
점진적으로 도전적인 적응 주행 시나리오에 걸친 MARL 실험 결과를 시연합니다.

제안 방법

상호 작용 영역을 관리하고 사회 에이전트 간 계산 자원을 확장하기 위해 버블을 갖춘 공급자 기반의 구성적 아키텍처를 제안합니다.
지도, 경로, 차량, 흐름으로 시나리오를 구성하기 위한 도메인 특화 언어(DSL) 사용하고, 버블을 통해 제어를 Social Agent Zoo 에이전트에 넘깁니다.
분산 학습 프레임워크(Ray, RLlib)와 MARL 라이브러리(PyMARL, MAlib)와의 통합으로 CTDE 및 네트워크형 에이전트 학습을 지원합니다.
유연한 관찰 및 행동 공간, 다양한 컨트롤러 및 구성 가능한 보상 신호를 갖춘 이질적인 에이전트(자기 에이전트와 사회 에이전트)를 지원합니다.
퍼포먼스, 행동, 게임 이론적 특성을 포착하는 AD 특화 지표를 포함한 벤치마킹 세트를 제공합니다.

실험 결과

연구 질문

RQ1자율 주행을 위한 현실적이고 도시 규모의 교통 상호 작용으로 MARL을 효과적으로 확장하려면 어떻게 해야 합니까?
RQ2다양한 시나리오에서 강건하고 안전하며 효율적인 다중 에이전트 주행 행동을 이끌어내는 사회 에이전트와 학습 전략의 조합은 무엇입니까?
RQ3복잡한 주행 상호 작용에서 서로 다른 MARL 패러다임(CTDE, 네트워크 학습)은 어떻게 비교됩니까?
RQ4SMARTS가 의미 있고 AD 관련 평가 지표를 갖춘 재현 가능하고 확장 가능한 벤치마크 세트를 제공할 수 있습니까?
RQ5시나리오 구성 및 버블 기반 핸오버가 학습 효율성과 정책 성능에 미치는 영향은 무엇입니까?

주요 결과

SMARTS는 다양하고 현실적인 사회 에이전트와 모듈식 공급자를 갖춘 확장 가능한 다중 에이전트 주행 시뮬레이션을 가능하게 합니다.
CTDE 및 네트워크형 변형을 포함한 광범위한 MARL 알고리즘을 벤치마크 세트와 AD 특화 지표를 사용하여 SMARTS 내에서 평가할 수 있습니다.
양방향 교통, 이중 합류, 무신호 교차로에 걸친 실험은 기본 성능 및 행동이 기준에 따라 달라짐을 보여주며, 복잡한 작업에서 에이전트 간 정보 공유의 이점을 강조합니다(예: Intersection에서 MADDPG가 좋은 성능).
버블 메커니즘과 Social Agent Zoo는 상호 작용 영역을 지역화하고 계산을 분산시켜 확장 가능하고 목표지향적인 학습 및 평가를 지원합니다.
이 플랫폼은 RLlib 및 MARL 라이브러리와 통합되어 OpenAI Gym과 유사한 API, 시각화, 그리고 포괄적인 관찰, 행동 및 보상 인터페이스 세트를 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.