Skip to main content
QUICK REVIEW

[논문 리뷰] A Sliding-Window Algorithm for Markov Decision Processes with Arbitrarily Changing Rewards and Transitions

Pratik Gajane, Ronald Ortner|arXiv (Cornell University)|2018. 05. 25.
Reinforcement Learning in Robotics참고 문헌 8인용 수 36
한 줄 요약

이 논문은 보상과 전이 확률이 시간에 따라 임의로 변화하는 마르코프 결정 과정(MDPs)을 위한 슬라이딩 윈도우 강화 학습 알고리즘인 SW-Ucrl을 제안한다. 최근 경험의 유한 윈도우를 유지함으로써 알고리즘은 변화에 신속히 적응하며, 최적의 비정상 정책에 대해 $\mathcal{O}(l^{1/3}T^{2/3}D^{2/3}S^{2/3}(A\log(T/\delta))^{1/3})$의 리그레트 한계를 달성한다. 이는 변화 횟수, 상태 공간, 행동 수에 대한 종속성에서 이전 방법보다 향상된 결과이다.

ABSTRACT

We consider reinforcement learning in changing Markov Decision Processes where both the state-transition probabilities and the reward functions may vary over time. For this problem setting, we propose an algorithm using a sliding window approach and provide performance guarantees for the regret evaluated against the optimal non-stationary policy. We also characterize the optimal window size suitable for our algorithm. These results are complemented by a sample complexity bound on the number of sub-optimal steps taken by the algorithm. Finally, we present some experimental results to support our theoretical analysis.

연구 동기 및 목표

  • 전이 확률과 보상 함수가 시간에 따라 임의로 변화하는 MDP에서의 강화 학습을 다루는 것.
  • 변화 지점에 대한 사전 지식 없이 이러한 변화에 신속히 적응하는 알고리즘을 개발하는 것.
  • 교환 MDP에서 최적의 비정상 정책에 대해 높은 확률로 리그레트 한계를 제공하는 것.
  • 알고리즘이 취하는 비최적 행동 단계 수에 대한 샘플 복잡도 한계를 유도하는 것.
  • 합성 교환-MDP에서 이론적 결과를 경험적으로 검증하는 것.

제안 방법

  • 알고리즘 SW-Ucrl은 최근 전이를 기반으로 상태-행동 전이 및 보상 분포를 추정하는 Ucrl2의 변종이다.
  • 유한한 윈도우 크기 $W$를 유지하며, 윈도우가 꽉 찼거나 새로운 에피소드가 시작될 때만 정책을 재계산한다.
  • 윈도우 크기 $W$는 변화 횟수 $l$, 상태 공간 크기 $S$, 행동 공간 크기 $A$, 시간 수 $T$와 같은 문제 파라미터에 기반해 적응적으로 선택된다.
  • 슬라이딩 윈도우 내에서 탐색과 이용의 균형을 이루기 위해 UCB 스타일의 탐색 보너스를 사용한다.
  • 리그레트 분석은 안정된 에피소드 내 학습에 기인하는 성분과 MDP 변화에 기인하는 성분으로 리그레트를 분해함으로써 수행된다.
  • 샘플 복잡도 한계는 각 윈도우 내에서 수렴하기 전에 비최적 행동이 취해지는 횟수를 분석함으로써 도출된다.

실험 결과

연구 질문

  • RQ1슬라이딩 윈도우 접근법이 교환 MDP에서 Ucrl2 리스타트 기반 방법에 비해 $D$, $S$, $A$에 대한 리그레트 의존성에서 더 나은 성능을 보일 수 있는가?
  • RQ2SW-Ucrl의 리그레트 한계를 최소화하는 최적의 윈도우 크기 $W$는 무엇인가?
  • RQ3변화가 알려지지 않은 간격으로 발생할 때 알고리즘이 실제로 어떻게 성능을 발휘하는가?
  • RQ4변화 횟수에 대한 사전 지식 없이도 알고리즘이 비최적 단계 수에 대한 한계를 달성할 수 있는가?
  • RQ5보상과 전이의 변동 정도와 달성 가능한 최소 리그레트 사이에 연관성이 있는가?

주요 결과

  • 윈도우 크기를 최적화할 경우 SW-Ucrl의 리그레트는 $\mathcal{O}(l^{1/3}T^{2/3}D^{2/3}S^{2/3}(A\log(T/\delta))^{1/3})$로 유한하다.
  • 특히 상태 공간과 행동 공간이 클수록 $D$, $S$, $A$에 대한 종속성에서 Ucrl2 리스타트 기반 방법보다 향상된 리그레트 한계를 달성한다.
  • 실험 결과에서 알고리즘이 양호한 성능을 보이며, 변화 횟수를 2에서 4로 늘일 때 Ucrl2 리스타트 기반 방법보다 낮은 리그레트를 기록한다.
  • 리그레트 곡선은 변화 지점에서 특징적인 '두드림' 패턴을 보이며, 알고리즘이 MDP 변화에 민감하게 반응하는 것을 확인한다.
  • 샘플 복잡도 한계가 확립되었으며, 이는 비최적 단계 수가 윈도우 크기와 문제 파라미터에 의해 제어됨을 보여준다.
  • 최적의 윈도우 크기 $W$는 $T$, $l$, $S$, $A$, $\delta$의 함수로 유도되었으며, 학습 정확도와 적응 속도 사이의 균형을 맞춘다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.