QUICK REVIEW

[논문 리뷰] Off-Policy Deep Reinforcement Learning without Exploration

Scott Fujimoto, David Meger|arXiv (Cornell University)|2018. 12. 07.

Reinforcement Learning in Robotics참고 문헌 70인용 수 279

한 줄 요약

논문은 외삽 오차를 고정 배치 데이터에서 off-policy 방법으로 학습하는 데 장애물로 식별하고, 환경과의 상호작용 없이 배치와 유사한 행동을 생성하고 고가치의 행동을 선택함으로써 효과적으로 학습하는 배치 제약 DRL 알고리즘인 BCQ를 소개합니다.

ABSTRACT

Many practical applications of reinforcement learning constrain agents to learn from a fixed batch of data which has already been gathered, without offering further possibility for data collection. In this paper, we demonstrate that due to errors introduced by extrapolation, standard off-policy deep reinforcement learning algorithms, such as DQN and DDPG, are incapable of learning with data uncorrelated to the distribution under the current policy, making them ineffective for this fixed batch setting. We introduce a novel class of off-policy algorithms, batch-constrained reinforcement learning, which restricts the action space in order to force the agent towards behaving close to on-policy with respect to a subset of the given data. We present the first continuous control deep reinforcement learning algorithm which can learn effectively from arbitrary, fixed batch data, and empirically demonstrate the quality of its behavior in several tasks.

연구 동기 및 목표

데이터 수집이 비용이 많이 들거나 위험한 실용적인 설정으로 배치 강화 학습의 타당성을 제시한다.
외삽 오차를 고정 데이터에서의 진정한 오프폴리시 학습의 핵심 장애물로 규정한다.
학습된 정책이 데이터 분포와 일치하도록 배치 제약 강화 학습을 제안한다.
연속 제어 과제에서 임의의 고정 배치 데이터로 학습하기 위해 BCQ를 도입한다.

제안 방법

정책 행동과 배치 데이터 사이의 불일치를 최소화하기 위해 배치 제약 정책을 정의한다.
배치에 유사한 행동을 선택하기 위해 상태 조건부 생성 모델과 Q-네트워크를 결합한 BCQ를 개발한다.
제한된 범위 내에서 후보 행동을 다양화하기 위해 섭동 모델을 사용한다.
미확실한 미래 상태를 페널티하기 위해 가중된 최소값을 갖는 Clipped Double Q-learning을 채택한다.
배치 일관성 하에서 결정론적 MDP에서 외삽 오차를 제거할 수 있음을 보이는 이론적 결과를 제공한다.
VAE 기반 생성기와 행동 섭동을 사용한 실용적인 딥 RL 구현(BCQ)을 제공한다.

실험 결과

연구 질문

RQ1정책을 배치 분포로 제한함으로써 고정된 배치 데이터로부터의 오프폴리시 학습을 신뢰할 수 있게 만들 수 있는가?
RQ2탐색 없이 수익을 극대화하기 위해 배치 행동의 생성 모델과 가치 함수를 공동으로 학습하는 방법은?
RQ3표준 오프폴리시 방법과 비교하여 연속 제어 과제에서 배치 제약 접근이 안정성과 성능을 향상시키는가?
RQ4어떤 조건에서 배치 제약 학습이 배치 내에서 편향되지 않은 가치 추정이나 정책 개선을 보장하는가?
RQ5BCQ가 불완전한 시연이나 전문가 시연을 포함할 때 전통적인 모방 학습 및 강화학습 기준선과 비교하여 어떤 성능을 보이는가?

주요 결과

BCQ는 배치 설정에서 여러 MuJoCo 과제에서 행동 정책과 비슷하거나 더 우수하다.
배치 학습에서 DDPG와 DQN과 달리 BCQ 가치 추정이 안정적으로 유지된다.
BCQ는 추가적인 환경 상호작용 없이도 전문가 및 서브optimal 배치 데이터를 효과적으로 활용한다.
불완전한 시연에서 BCQ는 열악한 행동과 전문가의 행동을 분리함으로써 딥 RL 및 모방 기준선보다 우수하다.
단일 하이퍼파라미터 집합으로 여러 과제를 커버할 수 있어 BCQ의 강건성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.