QUICK REVIEW

[논문 리뷰] Selecting the State-Representation in Reinforcement Learning

Odalric-Ambrym Maillard, Rémi Munos|arXiv (Cornell University)|2013. 02. 11.

Advanced Bandit Algorithms Research참고 문헌 12인용 수 30

한 줄 요약

이 논문은 복수의 후보 모델이 존재할 때, 그 중 하나가 마르코프 결정 과정(MDP)을 유도하는 경우 강화 학습에서 최적의 상태 표현을 선택하기 위한 알고리즘을 제안한다. UCRL2를 서브루틴으로 사용하고, 처벌된 경험 기반 기준을 적용함으로써, $T^{2/3}$ 순위 경계를 달성하여 진짜 모델이나 그 동역학에 대한 사전 지식 없이도 거의 최적의 성능을 달성한다.

ABSTRACT

The problem of selecting the right state-representation in a reinforcement learning problem is considered. Several models (functions mapping past observations to a finite set) of the observations are given, and it is known that for at least one of these models the resulting state dynamics are indeed Markovian. Without knowing neither which of the models is the correct one, nor what are the probabilistic characteristics of the resulting MDP, it is required to obtain as much reward as the optimal policy for the correct model (or for the best of the correct models, if there are several). We propose an algorithm that achieves that, with a regret of order T^{2/3} where T is the horizon time.

연구 동기 및 목표

복수의 후보 모델이 존재할 때, 그 중 하나가 마르코프 MDP를 유도하는 경우 강화 학습에서 정확한 상태 표현을 선택하는 문제에 대응하기 위해.
진짜 모델과 그 확률적 특성에 대해 알고 있다는 가정 하에 거의 동일한 성능을 내는 온라인 알고리즘을 설계하기 위해.
비마르코프 모델에 대한 가정 없이, 통계적으로 마르코프성을 검증할 수 없더라도 유한 시간 순위 경계를 달성하기 위해.
알려지지 않은 모델 신뢰도를 가진 마르코프 결정 과정 설정에서 밴딧 스타일의 학습을 종속된 암호로 일반화하기 위해.

제안 방법

알고리즘은 각 후보 모델 내에서 정책을 학습하기 위해 UCRL2를 서브루틴으로 사용하며, 약한 연결성 있는 MDP에 대해 알려진 순위 경계를 활용한다.
추정된 평균 보상과 신뢰 구간을 바탕으로 모델 간 선택을 위해 처벌된 경험 기반 기준을 적용한다.
지수적으로 증가하는 시간 간격 $\tau_i = 2^i$를 사용하는 다단계 탐색 전략을 채택하며, 각 단계를 두 단계로 나눈다: 초기 탐색을 위한 $\tau_{i,1} = \tau_i^{2/3}$ 및 정책 평가를 위한 $\tau_{i,2} = \tau_i - \tau_i^{2/3}$.
모델 간 전이 및 보상 추정의 추정 오차를 제어하기 위해 고확률 신뢰 구간 $B_D(\cdot)$와 $B(\cdot)$를 사용한다.
신뢰 수준을 제어하기 위해 파라미터 $\delta_i(\delta)$를 조정함으로써 탐색과 이용의 균형을 이루며, 누적 순위가 고확률로 유한하게 유지되도록 보장한다.
다양한 사건에 대한 유니온 바OUNDS를 통합하여 고확률 순위 경계를 유도하며, 모델 선택 오류와 추정 정확도 결함을 모두 고려한다.

실험 결과

연구 질문

RQ1정확한 상태 표현이 유한한 후보 모델 집합 중에서 알려지지 않은 경우, 강화 학습에서 거의 최적의 성능를 달성할 수 있는가?
RQ2진짜 모델이 마르코프이지만 알려지지 않았을 때, 다른 모델에 대한 가정 없이 달성 가능한 순위 경계는 무엇인가?
RQ3동역학이나 마르코프 성질에 대한 사전 지식 없이도 최적의 모델을 선택하는 온라인 알고리즘을 어떻게 설계할 수 있는가?
RQ4알려지지 않은 모델 신뢰도를 가진 마르코프 결정 과정 프레임워크에서 밴딧 스타일의 학습을 종속된 암호로 확장할 수 있는가?
RQ5누적 순위를 최소화하기 위해 모델 간 탐색과 각 모델 내 이용 사이의 최적의 트레이드오프는 무엇인가?

주요 결과

제안된 알고리즘은 고확률로 $T^{2/3}$ 순위 경계를 달성하며, 알려진 MDP에서 표준 UCRL2의 $T^{1/2}$ 경계에 비해 상당한 향상이다.
비마르코프 모델에 대한 가정이 없더라도 이 경계가 유지되며, 알고리즘이 진짜 모델을 확실히 식별하지는 않는다.
진짜 모델이 무엇인지 모른다는 조건 하에서도 알고리즘의 성능은 정확한 모델에 대한 최적 정책의 상수 배수 이내이다.
분석 결과 누적 순위는 $\mathcal{O}(f(T)S\sqrt{AJ\log(J\delta^{-1})\log T} \cdot T^{2/3}) + \mathcal{O}(DS\sqrt{A\log \delta^{-1} \log T \cdot T}) + \mathcal{O}(2^D)$로 유계이며, 여기서 $f(T) = \log_2(T+1)$이다.
특수 케이스에서 $f(T) = \log_2(T+1)$일 경우, 상수 항 $c(f,D)$는 $2^D$ 이하로 유계이므로 경계는 유한하고 의미 있는 상태를 유지한다.
이 방법은 모델 잘못 지정에 강건하며, 무한한 이산화 또는 특징 조합 집합에서의 학습을 가능하게 하여 향후 확장의 기초를 마련한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.