QUICK REVIEW

[논문 리뷰] The Sample-Complexity of General Reinforcement Learning

Tor Lattimore, Marcus Hütter|arXiv (Cornell University)|2013. 08. 22.

Reinforcement Learning in Robotics참고 문헌 19인용 수 33

한 줄 요약

이 논문은 유한하거나 컴act한 환경 클래스에 대한 일반 강화 학습을 위한 새로운 알고리즘인 최대 탐색 강화 학습(MERL)을 소개한다. 이는 $\tilde{O}\left(\frac{N}{\epsilon^2(1-\gamma)^3}\log^2\frac{N}{\delta\epsilon(1-\gamma)}\right)$ 수준의 거의 최적의 샘플 복잡도를 확립하며, 이는 로그 인자 외에는 날카롭게 조밀한 bound이며, 비콤팩트 환경 클래스에 대해서는 유한한 샘플 복잡도 bound가 불가능하다는 것을 보여준다.

ABSTRACT

We present a new algorithm for general reinforcement learning where the true environment is known to belong to a finite class of N arbitrary models. The algorithm is shown to be near-optimal for all but O(N log^2 N) time-steps with high probability. Infinite classes are also considered where we show that compactness is a key criterion for determining the existence of uniform sample-complexity bounds. A matching lower bound is given for the finite case.

연구 동기 및 목표

일반적인 환경 클래스, 특히 비마르코프 및 비요약 모델을 포함한 경우에도 거의 최적의 샘플 복잡도를 달성하는 강화 학습 알고리즘을 개발하는 것.
진짜 환경이 크기가 $N$인 유한한 집합에 포함되어 있다는 조건 하에, 임의의 환경 클래스에 대한 샘플 복잡도 이론적 경계를 설정하는 것.
값 함수 차이에 기반한 커버링 접근법을 사용하여, 유한하지만 컴팩트한 환경 클래스로 분석을 확장하는 것.
특히 비콤팩트 클래스일 경우, 유한한 샘플 복잡도 경계가 불가능한 조건을 규명하는 것.
일반적인 경우에서 상한이 로그 인자 외에는 향상될 수 없음을 보여주는 매칭 하한을 제공하는 것.

제안 방법

진짜 환경에 대한 정보 수득의 기대치를 극대화하는 방식으로 행동을 선택하는 MERL 알고리즘을 제안하며, 신뢰구간 기반 탐색 전략을 사용한다.
유한 시간 할당 가치 함수 근사와 마팅갈 농도 부등식을 사용하여 환경 모델에 대한 신뢰구간을 구성한다.
콤팩트 클래스에 대해서는 커버링 기반 접근법을 사용하며, 경계에서 $N$을 환경 클래스의 최소 $\epsilon$-커버 크기로 대체한다.
모든 정책과 역사에 걸쳐 가치 함수의 차이에 의해 유도되는 위상에 기반한, 환경 클래스 전역에 걸친 균일 수렴 추론을 적용한다.
신뢰수준에 대한 페링 추론과 클래스 내 모든 환경에 대한 유니온 바운드를 사용하여 샘플 복잡도 경계를 유도한다.
상한이 로그 인자 외에는 향상될 수 없음을 보여주기 위해, 네 상태와 $N$개의 행동을 가진 $N$개의 밴딧 유사 MDP로 구성된 반례를 기반으로 하한을 확립한다.

실험 결과

연구 질문

RQ1진짜 환경이 크기가 $N$인 유한한 임의의 모델 집합에 속해 있다는 조건 하에, 강화 학습의 최적 샘플 복잡도는 무엇인가?
RQ2무한하지만 컴팩트한 환경 클래스에 대해 유한한 샘플 복잡도 경계를 달성할 수 있는가, 그리고 만약 가능하면 어떤 조건에서 가능한가?
RQ3유한한 환경 클래스에 대한 제안된 샘플 복잡도 경계는 일반적으로 로그 인자 외에는 향상될 수 없는가?
RQ4환경 클래스가 비콤팩트할 경우 샘플 복잡도 경계의 근본적인 제약은 무엇인가?
RQ5MERL의 샘플 복잡도는 유한 MDP나 밴딧과 같은 구조화된 설정에서 알려진 경계와 어떻게 비교되는가?

주요 결과

MERL는 $N$개의 환경로로 구성된 유한한 클래스에서 샘플 복잡도 $\tilde{O}\left(\frac{N}{\epsilon^2(1-\gamma)^3}\log^2\frac{N}{\delta\epsilon(1-\gamma)}\right)$ 를 달성하며, 이는 로그 인자 외에는 거의 최적이다.
콤팩트한 환경 클래스의 경우, 샘플 복잡도는 최소 $\epsilon$-커버의 크기에 따라 달라지며, 이는 유한한 경우와 동일한 기능 형태를 가지지만 $N$ 대신 커버 크기를 사용한다.
매칭 하한이 확립되었으며, 어떤 알고리즘도 worst case에서 $\Omega\left(\frac{N}{\epsilon^2(1-\gamma)^3}\log\frac{1}{\delta}\right)$ 보다 좋은 샘플 복잡도를 달성할 수 없음을 보여, 상한이 로그 인자 외에는 날카롭게 조밀하다는 것을 확인한다.
비콤팩트한 환경 클래스, 예를 들어 모든 계산 가능한 환경의 집합이나 모든 환경의 전체 집합과 같은 경우, 유한한 샘플 복잡도 경계는 존재하지 않는다.
하한을 증명하기 위해 사용된 반례는 $N$개의 행동을 가진 네 상태 MDP로 구성된 클래스이며, 각 환경에서 한 가지 행동만 최적이다. 이 경계는 알려진 밴딧 하한과 일치한다.
분석 결과, MERL는 일반적으로 거의 향상될 수 없지만, 최적 행동을 취하기 위해 함정에 들어가는 것이 필요한 병리적인 환경에서는 성능이 떨어질 수 있으며, 이는 샘플 복잡도 기준 자체의 한계를 드러낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.