QUICK REVIEW

[논문 리뷰] Optimism in Reinforcement Learning with Generalized Linear Function Approximation

Yining Wang, Ruosong Wang|arXiv (Cornell University)|2019. 12. 09.

Advanced Bandit Algorithms Research참고 문헌 29인용 수 54

한 줄 요약

이 논문은 낙관적 벨만 백업을 사용한 일반화 선형 함수 근사를 활용하는 증명 가능한 효율적인 강화 학습(RL) 알고리즘을 제시하며, tilde O(H sqrt(d^3 T))의 부분선형 후회(bound)를 달성한다.

ABSTRACT

We design a new provably efficient algorithm for episodic reinforcement learning with generalized linear function approximation. We analyze the algorithm under a new expressivity assumption that we call "optimistic closure," which is strictly weaker than assumptions from prior analyses for the linear setting. With optimistic closure, we prove that our algorithm enjoys a regret bound of $ ilde{O}(\sqrt{d^3 T})$ where $d$ is the dimensionality of the state-action features and $T$ is the number of episodes. This is the first statistically and computationally efficient algorithm for reinforcement learning with generalized linear functions.

연구 동기 및 목표

에피소드형 MDP에서 함수 근사가 필요한 무한 상태 공간에서의 학습 동기를 부여한다.
낙관성을 통해 샘플 효율성을 유지하는 간단한 GLM 기반 Q-learning 변형을 제안한다.
낙관적 폐쇄라는 표현력 가정을 도입하여 이전의 다이나믹 요구사항을 약화시킨다.
제안된 알고리즘에 대한 후회 보장을 새로운 가정 하에서 확립한다.

제안 방법

최적의 Q-함수를 알고 있는 특징 맵과 연결 함수가 있는 GLM 클래스 를 사용하여 근사한다.
역방향 동적 프로그래밍 단계와 낙관 보너스를 통해 낙관적 Q-값 추정치를 유지한다.
각 시점마다 제약 최소제곱 문제를 풀어 Q-함수 매개변수를 업데이트한다.
min{1, f(phi(s,a)^T hat{theta}) + gamma ||phi(s,a)||_{Lambda^{-1}}} 바운드로 낙관적 Q-함수를 정의한다.
현재의 낙관적 Q-함수에 대해 탐욕 정책을 적용하고 에피소드를 순환한다.

실험 결과

연구 질문

RQ1낙관적 폐쇄가 일반화 선형 함수 근사와 함께 증명 가능하게 효율적인 RL을 가능하게 할 충분한 표현력을 제공하는가?
RQ2GLM 기반의 낙관주의와 선형 MDP 가정 간의 보장성과 실용성 측면에서 어떻게 비교되는가?
RQ3낙관적 폐쇄 하에서 GLMs를 사용할 때 에피소드형 RL에서 어떤 후회 경계가 달성될 수 있는가?
RQ4제안된 접근법이 계산적으로 실현 가능하면서 더 일반적인 함수 클래스까지 확장되는가?

주요 결과

LSVI-UCB, 에피소드형 RL을 위한 GLM 기반 동적 프로그래밍 알고리즘을 제안한다.
완만한 정규성 조건하에서 낙관적 폐쇄를 사용한 tilde O(H sqrt(d^3 T))의 후회 경계를 증명한다.
낙관적 폐쇄가 구현 가능성을 시사하며 이것이 선형 MDP 가정보다 약하다는 것을 보여준다.
이 방법이 이전의 표 형태 및 선형 함수 결과를 일반화하여 GLM 기반 RL을 가능하게 한다고 보인다.
Corollary: 표 형식 설정에서 표준 특징을 사용할 경우 후회 경계가 tilde O(H |S|^3 |A|^3 T)로 바뀜(논문의 구성에 근거).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.