QUICK REVIEW

[논문 리뷰] Control with adaptive Q-learning

João Pedro Araújo, Mário A. T. Figueiredo|arXiv (Cornell University)|2020. 11. 03.

Reinforcement Learning in Robotics인용 수 3

한 줄 요약

이 논문은 유한한 행동 공간을 가진 제어 작업을 위한 해석 가능하고 샘플 효율적인 강화 학습 알고리즘인 단일 파artition 적응형 Q-학습 및 종료 상태(SPAQL-TS)를 제안한다. 상태-행동 공간을 적응적으로 분할하고 시간에 불변하는 정책을 학습함으로써, SPAQL-TS는 신경망 기반 TRPO와는 달리 인간이 읽을 수 있는 정책을 도출하면서도 CartPole 환경에서 샘플 효율성 면에서 TRPO를 능가한다.

ABSTRACT

This paper evaluates adaptive Q-learning (AQL) and single-partition adaptive Q-learning (SPAQL), two algorithms for efficient model-free episodic reinforcement learning (RL), in two classical control problems (Pendulum and Cartpole). AQL adaptively partitions the state-action space of a Markov decision process (MDP), while learning the control policy, i. e., the mapping from states to actions. The main difference between AQL and SPAQL is that the latter learns time-invariant policies, where the mapping from states to actions does not depend explicitly on the time step. This paper also proposes the SPAQL with terminal state (SPAQL-TS), an improved version of SPAQL tailored for the design of regulators for control problems. The time-invariant policies are shown to result in a better performance than the time-variant ones in both problems studied. These algorithms are particularly fitted to RL problems where the action space is finite, as is the case with the Cartpole problem. SPAQL-TS solves the OpenAI Gym Cartpole problem, while also displaying a higher sample efficiency than trust region policy optimization (TRPO), a standard RL algorithm for solving control tasks. Moreover, the policies learned by SPAQL are interpretable, while TRPO policies are typically encoded as neural networks, and therefore hard to interpret. Yielding interpretable policies while being sample-efficient are the major advantages of SPAQL.

연구 동기 및 목표

유한한 행동 공간을 가진 제어 문제를 위한 샘플 효율적이고 해석 가능한 강화 학습 알고리즘을 개발하는 것.
시간에 불변하는 정책을 강제함으로써 기존의 적응형 Q-학습 방법을 향상시키는 것.
클래식한 제어 벤치마크(Pendulum 및 CartPole)에서 샘플 효율성과 정책의 해석 가능성에 중점을 두고 제안된 알고리즘을 평가하는 것.
학습 속도와 성능 측면에서 표준 딥 강화 학습 알고리즘인 TRPO와의 실증적 비교를 통한 SPAQL-TS의 성능 평가

제안 방법

적응형 Q-학습(AQL)은 학습 중 상태-행동 공간을 동적으로 분할하여 샘플 효율성을 향상시킨다.
단일 파artition 적응형 Q-학습(SPAQL)은 시간에 불변하는 정책을 강제하며, 이는 행동 매핑이 시점에 의존하지 않음을 의미한다.
SPAQL-TS는 제어 작업 성능을 향상시키기 위해 종료 상태 메커니즘을 도입한다. 특히 순환 환경에서 효과적이다.
알고리즘은 상태-행동 공간 내에서 구 기반 파artition를 사용하며, 각 구 내에서 Q-값 갱신을 전파한다.
정책 추출은 본질적으로 해석 가능하며, 최종 정책이 상태-행동 파artition에 대한 룩업 테이블로 표현되기 때문이다.
신경망을 회피함으로써 학습된 제어 규칙를 직접 해석할 수 있다.

실험 결과

연구 질문

RQ1적응형 Q-학습에서 시간에 불변하는 정책이 시간에 의존하는 정책보다 샘플 효율성을 향상시킬 수 있는가?
RQ2SPAQL-TS는 CartPole 제어 문제에서 TRPO보다 더 높은 샘플 효율성을 달성하는가?
RQ3해석 가능한 비신경망 정책이 TRPO와 같은 딥 강화 학습 방법의 성능을 따라하거나 능가할 수 있는가?
RQ4간단한 함수 근사기에도 불구하고 SPAQL-TS는 왜 초기 학습 배치에서 TRPO를 능가하는가?
RQ5구 기반 영역을 사용한 적응형 파artition는 연속적인 상태-행동 공간으로 일반화될 수 있는가?

주요 결과

SPAQL-TS는 OpenAI Gym의 CartPole 환경을 해결하여 높은 샘플 효율성으로 성공적인 제어를 달성했다.
첫 200개의 학습 배치(40,000개 샘플) 동안 SPAQL-TS는 샘플 효율성에서 TRPO를 능가했으며, 최종 성능는 통계적으로 구분되지 않았다.
Pendulum 및 CartPole 작업 모두에서 SPAQL과 SPAQL-TS의 시간에 불변하는 정책이 시간에 의존하는 정책보다 더 우수한 성능을 보였다.
SPAQL이 학습한 정책는 룩업 테이블로 해석 가능하지만, TRPO 정책는 복잡하고 해석할 수 없는 신경망에 의해 인코딩되어 있다.
Pendulum 환경에서는 연속적인 행동 공간으로 인해 SPAQL과 SPAQL-TS가 TRPO의 성능을 따라가지 못했지만, 이산화가 도움이 되었다.
결과적으로, 적응형 파artition와 구 기반 영역이 유한한 행동 공간을 가진 문제, 예를 들어 CartPole에서 가장 효과적으로 작용하는 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.