QUICK REVIEW

[논문 리뷰] An empirical investigation of the challenges of real-world reinforcement learning

Gabriel Dulac-Arnold, Nir Levine|arXiv (Cornell University)|2020. 03. 24.

Reinforcement Learning in Robotics참고 문헌 133인용 수 52

한 줄 요약

본 논문은 아홉 가지 현실 세계 RL 도전과제를 형식화하고, realworldrl-suite를 사용하여 SOTA 에이전트에 미치는 영향을 분석하며, 평가를 위한 오픈 소스 벤치마크를 제안한다.

ABSTRACT

Reinforcement learning (RL) has proven its worth in a series of artificial domains, and is beginning to show some successes in real-world scenarios. However, much of the research advances in RL are hard to leverage in real-world systems due to a series of assumptions that are rarely satisfied in practice. In this work, we identify and formalize a series of independent challenges that embody the difficulties that must be addressed for RL to be commonly deployed in real-world systems. For each challenge, we define it formally in the context of a Markov Decision Process, analyze the effects of the challenge on state-of-the-art learning algorithms, and present some existing attempts at tackling it. We believe that an approach that addresses our set of proposed challenges would be readily deployable in a large number of real world problems. Our proposed challenges are implemented in a suite of continuous control environments called the realworldrl-suite which we propose an as an open-source benchmark.

연구 동기 및 목표

MDP에서 현실 세계 RL 도전과제를 식별하고 정의하며 그 직관을 제시한다.
각 도전과제가 학습 알고리즘에 미치는 영향을 형식적으로 정의하고 분석한다.
도전과제를 연구하기 위해 DeepMind Control Suite를 확장한 벤치마크 세트(realworldrl-suite)를 개발한다.
베이스라인을 설정하기 위해 도전과제 전반에 걸쳐 최첨단 에이전트(DMPO 및 D4PG)를 평가한다.
현실 세계와 유사한 설정에서 RL의 재현 가능한 테스트를 가능하게 하는 지침과 자원을 제공한다.

제안 방법

MDP 프레임워크 내에서 아홉 가지 현실 세계 RL 도전과제를 형식적으로 정의한다.
교란을 도입하여 realworldrl-suite에 도전 환경을 구현하고 DeepMind Control Suite를 확장한다.
다양한 난이도의 다수 작업에서 두 가지 SOTA 에이전트(DMPO 및 D4PG)를 벤치마크한다.
샘플 효율성과 안정성을 평가하기 위해 수렴 전의 후퇴(pre-convergence regret)와 수렴 후의 불안정성(post-convergence instability) 지표를 도입한다.
일부 도전과제를 보정하고 결합하여 벤치마크의 기준 비교를 위한 결합된 작업을 만든다.
실험 재현을 위한 오픈 소스 코드와 문서를 제공한다.

실험 결과

연구 질문

RQ1각 현실 세계 도전과제가 RL 학습 성능과 샘플 효율성에 어떤 영향을 미치는가?
RQ2이러한 현실 세계 도전과제들 아래에서 DMPO와 D4PG의 성능 차이는 무엇인가?
RQ3도전과제를 하나의 벤치마크 작업으로 결합하는 것이 어떤 영향을 미치는가?
RQ4연속 제어 작업 전반에서 어떤 도전과제가 안정성과 수렴에 가장 해로운가?

주요 결과

DMPO는 모든 작업에서 수렴 전의 후퇴(pre-convergence regret)가 D4PG보다 더 크다.
D4PG는 일반적으로 더 큰 샘플 효율성과 대부분의 경우 더 안정적인 수렴을 보여준다.
행동, 관찰, 보상 지연이 증가하면 성능이 저하되며, 특히 행동/관찰 지연이 영향을 크게 준다.
고차원 또는 노이즈가 있는 더미 상태 차원을 추가하면 수렴이 느려질 수 있지만 일부 작업에서 학습자는 거의 최적에 근접한 성능에 도달할 수 있다.
결합된 현실 세계 도전 벤치마크는 최첨단 에이전트가 약한 교란에서도 빠르게 실패할 수 있음을 보여주어 더 강건한 방법의 필요성이 강조된다.
본 논문은 이러한 도전의 평가를 표준화하기 위한 오픈 소스 벤치마크(realworldrl-suite)를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.