QUICK REVIEW

[논문 리뷰] Online Learning in Markov Decision Processes with Adversarially Chosen Transition Probability Distributions

Yasin Abbasi, Peter L. Bartlett|arXiv (Cornell University)|2013. 12. 05.

Advanced Bandit Algorithms Research참고 문헌 25인용 수 51

한 줄 요약

이 논문은 적대적으로 선택된 전이 분포와 손실 함수를 가진 마르코프 결정 과정(MDPs)에 대한 효율적인 온라인 학습 알고리즘을 제안하며, 혼합 가정 하에 O(√T log |Π| + log |Π|)의 리그레트를 달성한다. 이는 에피소딕 온라인 최단경로 문제로 확장되며, 적대적인 그래프와 랜덤 손실이 존재할 경우 효율적인 해법이 존재함을 보여주지만, 그래프와 손실이 모두 적대적으로 선택될 경우 러닝 페어티와 노이즈 문제를 해결하는 것만큼 어려워진다.

ABSTRACT

We study the problem of online learning Markov Decision Processes (MDPs) when both the transition distributions and loss functions are chosen by an adversary. We present an algorithm that, under a mixing assumption, achieves O(√T log |II| + log |II|) regret with respect to a comparison set of policies II. The regret is independent of the size of the state and action spaces. When expectations over sample paths can be computed efficiently and the comparison set II has polynomial size, this algorithm is efficient. We also consider the episodic adversarial online shortest path problem. Here, in each episode an adversary may choose a weighted directed acyclic graph with an identified start and finish node. The goal of the learning algorithm is to choose a path that minimizes the loss while traversing from the start to finish node. At the end of each episode the loss function (given by weights on the edges) is revealed to the learning algorithm. The goal is to minimize regret with respect to a fixed policy for selecting paths. This problem is a special case of the online MDP problem. It was shown that for randomly chosen graphs and adversarial losses, the problem can be efficiently solved. We show that it also can be efficiently solved for adversarial graphs and randomly chosen losses. When both graphs and losses are adversarially chosen, we show that designing efficient algorithms for the adversarial online shortest path problem (and hence for the adversarial MDP problem) is as hard as learning parity with noise, a notoriously difficult problem that has been used to design efficient cryptographic schemes. Finally, we present an efficient algorithm whose regret scales linearly with the number of distinct graphs.

연구 동기 및 목표

전이 확률과 손실 함수가 모두 적대적으로 선택되는 MDPs에서의 온라인 학습 문제를 다루는 것.
상태 및 행동 공간 크기에 관계없이 낮은 리그레트를 달성하는 효율적인 알고리즘을 개발하는 것.
다양한 적대적 설정 하에서 에피소딕 적대적 온라인 최단경로 문제의 계산 복잡도를 분석하는 것.
온라인 MDP 학습에서 다항식 해법과 비가역 해법의 경계를 규명하는 것.
적대적 온라인 MDPs와 러닝 페어티와 노이즈 문제 간의 연결 고리를 설정하는 것.

제안 방법

알고리즘은 MDP에 대한 혼합 가정을 사용하여 시간이 지남에 따라 가치 추정치의 빠른 수렴을 보장한다.
비교 정책 집합 Π를 사용하며, 리그레트가 |Π|에 대해 로그적으로 증가하고 √T 비례로 증가한다.
에피소딕 최단경로 문제의 경우, 알고리즘은 적대적인 그래프 구조와 랜덤 손실 함수에 적응한다.
비교 집합 Π가 다항식 크기일 경우 샘플 경로에 대한 기대값을 효율적으로 계산하는 데 의존한다.
상태 및 행동 공간 크기의 영향을 최종 리그레트 한계에서 분리하는 리그레트 분석을 도입한다.
기대값을 효율적으로 계산할 수 있고 |Π|가 다항식일 경우 알고리즘이 효율적임을 보였다.

실험 결과

연구 질문

RQ1전이와 손실이 모두 적대적으로 선택될 경우 MDP에서의 온라인 학습을 효율적으로 수행할 수 있는가?
RQ2다양한 적대적 모델 하에서 에피소딕 적대적 온라인 최단경로 문제의 계산 복잡도는 무엇인가?
RQ3크기가 큰 상태 및 행동 공간을 가진 적대적 MDP에 대해 효율적인 알고리즘을 설계할 수 있는 조건은 무엇인가?
RQ4그래프와 손실이 모두 적대적으로 선택될 경우, 적대적 온라인 최단경로 문제의 난이도는 러닝 페어티와 노이즈 문제만큼 어려운가?
RQ5그래프가 적대적이지만 손실이 랜덤으로 선택될 경우, 효율적인 리그레트 최소화 알고리즘을 설계할 수 있는가?

주요 결과

제안된 알고리즘은 상태 및 행동 공간 크기에 영향을 받지 않고, 정책 집합 Π에 대해 O(√T log |Π| + log |Π|)의 리그레트를 달성한다.
샘플 경로에 대한 기대값을 효율적으로 계산할 수 있고 |Π|가 다항식일 경우 알고리즘이 효율적이다.
적대적인 그래프와 랜덤으로 선택된 손실이 존재할 경우, 에피소딕 온라인 최단경로 문제에 대해 효율적인 해법이 존재한다.
그래프와 손실이 모두 적대적으로 선택될 경우, 문제를 해결하는 것은 러닝 페어티와 노이즈 문제를 해결하는 것과 동일한 난이도이다.
적대적 환경에서 서로 다른 그래프의 수에 비례하여 선형으로 증가하는 리그레트를 가지는 효율적인 알고리즘이 제안되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.