QUICK REVIEW

[논문 리뷰] A Survey of Generalisation in Deep Reinforcement Learning

Robert Kirk, Amy Zhang|arXiv (Cornell University)|2021. 11. 18.

Reinforcement Learning in Robotics참고 문헌 172인용 수 64

한 줄 요약

이 종합 검토는 딥 강화학습에서 일반화를 이해하기 위한 통합된 프레임워크를 제공하며, 미지의 환경에서 정책 과적합을 해결하기 위한 벤치마크와 방법을 분류한다. 이 논문은 오프라인 RL과 보상 함수 변동에 중점을 둔 향상된 벤치마크를 주장하며, 향후 발전을 위해 온라인 적응 및 RL 전용 솔루션을 권장한다.

ABSTRACT

The study of generalisation in deep Reinforcement Learning (RL) aims to produce RL algorithms whose policies generalise well to novel unseen situations at deployment time, avoiding overfitting to their training environments. Tackling this is vital if we are to deploy reinforcement learning algorithms in real world scenarios, where the environment will be diverse, dynamic and unpredictable. This survey is an overview of this nascent field. We provide a unifying formalism and terminology for discussing different generalisation problems, building upon previous works. We go on to categorise existing benchmarks for generalisation, as well as current methods for tackling the generalisation problem. Finally, we provide a critical discussion of the current state of the field, including recommendations for future work. Among other conclusions, we argue that taking a purely procedural content generation approach to benchmark design is not conducive to progress in generalisation, we suggest fast online adaptation and tackling RL-specific problems as some areas for future work on methods for generalisation, and we recommend building benchmarks in underexplored problem settings such as offline RL generalisation and reward-function variation.

연구 동기 및 목표

딥 강화학습에서 일반화 문제에 대한 통합된 수학적 형식과 용어 체계를 수립하기 위해.
강화학습에서 일반화를 평가하기 위해 사용되는 기존의 벤치마크를 분류하기 위해.
미지의 환경에서 정책의 일반화를 향상시키기 위한 현재의 방법들을 검토하기 위해.
특히 절차적 콘텐츠 생성을 통한 현재의 벤치마크 평가 관행의 한계를 규명하기 위해.
향후 연구 방향을 제안하기 위해, 빠른 온라인 적응 및 오프라인 RL과 보상 함수 변동과 같이 미처 다뤄지지 않은 설정을 포함한다.

제안 방법

강화학습 일반화 문제의 표준화된 용어와 문제 프레임워크를 위한 통합 수학적 형식을 제안한다.
벤치마크의 설계 원칙과 일반화 목표에 기반해 기존의 벤치마크를 분류한다.
도메인 랜덤라이제이션 및 메타-RL 접근법과 같은 최신 기법들을 검토한다.
벤치마크 평가 관행을 비판적으로 평가하며, 절차적 콘텐츠 생성만으로는 의미 있는 일반화 평가에 부적합하다고 주장한다.
실제 세계의 구현을 더 잘 반영하기 위해, 오프라인 RL과 다양한 보상 함수와 같은 미처 다뤄지지 않은 설정에서의 벤치마크 설계를 권장한다.

실험 결과

연구 질문

RQ1실제 환경에 구현하기 위한 딥 강화학습에서 강건한 일반화를 달성하는 데 있어 핵심 과제는 무엇인가?
RQ2현재 강화학습에서 일반화를 평가하기 위한 벤치마크는 설계와 효과성 측면에서 어떻게 다를까?
RQ3벤치마크 평가에서 절차적 콘텐츠 생성의 한계는 무엇인가?
RQ4강화학습에서 일반화를 향상시키기 위해 가장 유망한 방법론적 접근은 무엇인가?
RQ5미래의 벤치마크 및 연구를 위해 우선적으로 다뤄야 할 미처 다뤄지지 않은 문제 설정은 무엇인가?

주요 결과

절차적 콘텐츠 생성만으로는 실제 세계의 분포 이동을 반영하지 못할 수 있으므로, 강화학습에서 일반화 평가에 있어 의미 있는 평가에 부적합하다.
빠른 온라인 적응은 동적인 환경에서 일반화를 향상시키는 데 있어 유망한 방향이다.
현재의 벤치마크는 오프라인 RL과 보상 함수 변동과 같은 중요한 실제 세계 시나리오를 잘 반영하지 못하고 있다.
실제 세계의 구현의 복잡성을 반영하는 더 다양한 실용적인 벤치마크가 필요로 한다.
분포 이동과 보상 불일치와 같은 RL 전용 과제에 초점을 맞춘 방법론적 발전이 분야에 유익할 것이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.