QUICK REVIEW

[논문 리뷰] Is Long Horizon Reinforcement Learning More Difficult Than Short Horizon Reinforcement Learning?

Ruosong Wang, Simon S. Du|arXiv (Cornell University)|2020. 05. 01.

Reinforcement Learning in Robotics참고 문헌 36인용 수 23

한 줄 요약

이 논문은 COLT 2018에서 제기된 미해결 문제를 해결하여, 표본형 에피소딕 강화학습의 표본 복잡도가 이전에 추측된 것처럼 H에 대해 다항적으로 증가하는 것이 아니라, 로그 스케일링으로 증가함을 증명한다. 저자들은 온라인 경로 합성 알고리즘과 최적 정책에 대한 ε-넷 구성법을 제안하여, 보상이 [0,1] 범위로 정규화된 경우, 장기 계획 수평(H)에 대해 최소최대 의미에서 장기-수평 강화학습이 단기-수평 강화학습만큼 어렵지 않음을 보여준다.

ABSTRACT

Learning to plan for long horizons is a central challenge in episodic reinforcement learning problems. A fundamental question is to understand how the difficulty of the problem scales as the horizon increases. Here the natural measure of sample complexity is a normalized one: we are interested in the number of episodes it takes to provably discover a policy whose value is $\varepsilon$ near to that of the optimal value, where the value is measured by the normalized cumulative reward in each episode. In a COLT 2018 open problem, Jiang and Agarwal conjectured that, for tabular, episodic reinforcement learning problems, there exists a sample complexity lower bound which exhibits a polynomial dependence on the horizon -- a conjecture which is consistent with all known sample complexity upper bounds. This work refutes this conjecture, proving that tabular, episodic reinforcement learning is possible with a sample complexity that scales only logarithmically with the planning horizon. In other words, when the values are appropriately normalized (to lie in the unit interval), this results shows that long horizon RL is no more difficult than short horizon RL, at least in a minimax sense. Our analysis introduces two ideas: (i) the construction of an $\varepsilon$-net for optimal policies whose log-covering number scales only logarithmically with the planning horizon, and (ii) the Online Trajectory Synthesis algorithm, which adaptively evaluates all policies in a given policy class using sample complexity that scales with the log-covering number of the given policy class. Both may be of independent interest.

연구 동기 및 목표

장기-수평 강화학습의 표본 복잡도가 계획 수평 H에 대해 다항적으로 증가하는지 여부에 대한 COLT 2018 논문의 미해결 문제를 해결하기 위해.
장기-수평 강화학습이 H에 대한 다항적 의존성으로 인해 단기-수평 강화학습보다 본질적으로 더 어려운가 하는 일반적인 추측에 도전하기 위해.
표본 복잡도가 H에 대해 로그 스케일링으로만 증가하는, 표본형 에피소딕 강화학습에 대해 증명 가능한 효율성 알고리즘을 개발하기 위해.
그 로그 커버링 수가 H에 대해 로그 스케일링으로 증가하는, 최적 정책에 대한 ε-넷을 구성하여 효율적인 정책 평가를 가능하게 하기 위해.
보상이 [0,1] 범위로 정규화된 조건 하에서, 장기-수평 강화학습이 문맥 기반 밴드잇(H=1)과 본질적으로 더 복잡하지 않음을 보여주기 위해.

제안 방법

제안된 정책 클래스의 모든 정책을 표본 복잡도가 정책 클래스의 로그 커버링 수에 비례하도록 적응적으로 평가하는 온라인 경로 합성 알고리즘을 제안한다.
로그 커버링 수가 계획 수평 H에 대해 로그 스케일링으로 증가하는 최적 정책의 집합에 대한 ε-넷을 구성한다.
에피소드당 누적 보상이 [0,1] 범위에 놓여져 있는 정규화된 보상 설정을 사용하여, 수평 간의 공정한 비교를 가능하게 한다.
집중 불등식과 고확률 경계를 적용하여, 정책의 추정된 가치가 진짜 가치로부터 ε 이내에 있을 확률가 높다는 것을 보장한다.
에피소드 수가 |S|, |A|, log H, 1/ε, log(1/δ)에 대해 다항식으로 증가하는 것을 이용하여, 알고리즘이 확률 1−δ 이상로 ε-최적 정책을 반환함을 증명한다.
에피소딕 MDP의 구조와 비음수 보상의 성질을 활용하여 추정 오차를 제한하고, 근사 최적 정책 수렴을 보장한다.

실험 결과

연구 질문

RQ1표본형 에피소딕 강화학습의 표본 복잡도가 Jiang와 Agarwal(2018)이 추측한 것처럼 계획 수평 H에 대해 다항적으로 증가하는가?
RQ2H에 대해 로그 스케일링으로만 의존하는 표본 복잡도를 갖는, 장기-수평 강화학습에 대해 증명 가능한 효율성 알고리즘을 설계할 수 있는가?
RQ3보상이 [0,1] 범위로 정규화된 조건 하에서, 장기-수평 강화학습과 단기-수평 강화학습(예: 문맥 기반 밴드잇) 사이에 본질적인 어려움의 차이가 있는가?
RQ4그 로그 커버링 수가 H에 대해 로그 스케일링으로 증가하는, 최적 정책에 대한 ε-넷을 구성할 수 있는가?
RQ5H에 대해 다항적 의존성에 영향을 받지 않는, 표본형 에피소딕 강화학습에 대해 최소최대 최적 표본 복잡도를 달성할 수 있는가?

주요 결과

제안된 온라인 경로 합성 알고리즘의 표본 복잡도는 계획 수평 H에 대해 다항적으로 증가하는 것이 아니라, 로그 스케일링으로 증가한다.
이 논문은 장기-수평 강화학습이 H에 대한 다항적 의존성로 인해 본질적으로 단기-수평 강화학습보다 더 어려운가 하는 추측을 반박한다.
최적 정책 ε-넷의 로그 커버링 수는 H에 대해 로그 스케일링으로 증가하며, 이는 효율적인 정책 평가를 가능하게 한다.
알고리즘은 O(poly(|S|, |A|, log H, 1/ε, log(1/δ))) 에피소드를 사용하여 확률 1−δ 이상으로 ε-최적 정책을 반환한다.
결과적으로, 보상이 [0,1]로 정규화된 조건 하에서, 최소최대 의미에서 장기-수평 강화학습은 단기-수평 강화학습만큼 어렵지 않다는 것을 의미한다.
저자들은 표본형 에피소딕 강화학습의 최소최대 최적 표본 복잡도가 Õ(|S||A|poly(log H)/ε²)일 것이라 추측하며, 이는 수평 의존성에 따른 어려움이 없음을 암시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.