QUICK REVIEW

[논문 리뷰] Making Deep Q-learning methods robust to time discretization

Corentin Tallec, Léonard Blier|arXiv (Cornell University)|2019. 01. 28.

Reinforcement Learning in Robotics참고 문헌 17인용 수 33

한 줄 요약

본 논문은 Q-학습 방법이 작은 시간 간격에서 붕괴한다는 것을 보여주고, 연속 시간 로버스트(off-policy) 알고리즘인 Deep Advantage Updating (DAU)을 제안한다. DAU는 다양한 시간 이산화에 걸쳐 효과를 유지하며 이론적 지원과 실증적 검증을 제공한다.

ABSTRACT

Despite remarkable successes, Deep Reinforcement Learning (DRL) is not robust to hyperparameterization, implementation details, or small environment changes (Henderson et al. 2017, Zhang et al. 2018). Overcoming such sensitivity is key to making DRL applicable to real world problems. In this paper, we identify sensitivity to time discretization in near continuous-time environments as a critical factor; this covers, e.g., changing the number of frames per second, or the action frequency of the controller. Empirically, we find that Q-learning-based approaches such as Deep Q- learning (Mnih et al., 2015) and Deep Deterministic Policy Gradient (Lillicrap et al., 2015) collapse with small time steps. Formally, we prove that Q-learning does not exist in continuous time. We detail a principled way to build an off-policy RL algorithm that yields similar performances over a wide range of time discretizations, and confirm this robustness empirically.

연구 동기 및 목표

거의 연속적인 환경에서 DRL의 시간 이산화에 대한 민감성 식별.
시간 이산화가 0으로 수렴할 때 Q-학습이 V-함수로 붕괴한다는 것을 증명.
다양한 시간 간격에 대해 강건한 off-policy 알고리즘을 개발하고 정당화한다.
연속 시간 극한의 이론적 기초와 실용 알고리즘(DAU)을 제공한다.
제안된 방법의 강건성을 다양한 환경에서 실험적으로 검증한다.

제안 방법

거의 연속적인 환경을 델타 t를 가진 연속 시간 MDP의 이산화로 프레이밍하고, 의미 있는 극한을 보존하기 위해 보상과 할인율을 스케일링한다.
A_delta_t(s,a) 정의로 Advantage Updating을 도입하고 A_delta_t(s,a) = (Q_delta_t(s,a) - V_delta_t(s)) / delta t로 하여 V와의 일관성을 강제해 학습 가능한 불변 랭킹 신호를 얻는다.
Q를 Q_theta(s,a) = V_theta(s) + delta t * A_psi(s,a)로 매개화하고 식별성을 위해 A(s, pi(s)) = 0을 강제한다.
일관된 행동 랭킹을 보장하기 위해 재매개변수화 A_psi(s,a) = barA_psi(s,a) - barA_psi(s, pi(s))를 사용한다.
연속 행동에 대해 Ornstein-Uhlenbeck 잡음의 연속 시간 극한을 통한 시점-불변 탐사를 채택하고, 이산 행동에는 이산화된 접근을 사용한다.
연속 시간 극한을 보장하기 위해 eta_V_delta_t, eta_A_delta_t를 delta t에 비례하도록 학습률 스케일링을 도출한다.

실험 결과

연구 질문

RQ1거의 연속적인 환경에서 Q-학습 기반 방법을 시간 이산화에 불변하도록 만들 수 있는가?
RQ2delta t가 0으로 수렴할 때 Q-함수 기반 방법의 이론적 한계는 무엇인가?
RQ3광범위한 시간 간격에 걸쳐 성능을 보존하도록 off-policy 알고리즘을 설계할 수 있는가?
RQ4연속 시간 극한을 달성하기 위해 탐사와 학습률 스케줄을 어떻게 조정해야 하는가?
RQ5delta t가 달라질 때 제안된 방법이 표준 제어 벤치마크에서 실험적으로 강건성을 보이는가?

주요 결과

Q-학습은 거의 연속 시간에서 V-함수로 붕괴되어 연속 시간에서 잘 작동하지 않는다.
A_delta_t는 행동 랭킹 정보를 유지하고 delta t -> 0일 때 비퇴화된 극한을 가진다.
V와 delta t A를 통한 재매개변수화된 Q는 식별성과 시간 간격 전반에 걸친 안정적인 학습을 보장한다.
시점-불변 탐사 방식은 이산 및 연속 행동 모두에 대해 의미 있는 연속 시간 극한으로 이어진다.
Deep Advantage Updating(DAU)는 여러 제어 과제에서 일반적인 DQN 또는 DDPG에 비해 시간 이산화에 대한 강건성이 향상되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.