QUICK REVIEW

[논문 리뷰] Minimax Regret for Stochastic Shortest Path with Adversarial Costs and Known Transition

Liyu Chen, Haipeng Luo|arXiv (Cornell University)|2021. 07. 07.

Advanced Bandit Algorithms Research인용 수 5

한 줄 요약

이 논문은 전이 확률이 알려진 상태에서 적대적 비용이 존재하는 스토케스틱 최단경로 문제를 위한 새로운 미니맥심 리그레트 알고리즘을 제안한다. 이는 새로운 기법을 포함한 온라인 미러 디센트를 활용하며, 비대칭 점유도 측도 공간과 비용 추정기의 보정 항을 포함한다. 전체 정보 설정에서는 $O(\sqrt{DT_\star K})$의 리그레트를 달성하고, 밴딧 피드백 설정에서는 $O(\sqrt{DT_\star SA K})$를 달성하여 이전 연구에 비해 크게 향상시킨다.

ABSTRACT

We study the stochastic shortest path problem with adversarial costs and known transition, and show that the minimax regret is $O(\sqrt{DT_\star K})$ and $O(\sqrt{DT_\star SA K})$ for the full-information setting and the bandit feedback setting respectively, where $D$ is the diameter, $T_\star$ is the expected hitting time of the optimal policy, $S$ is the number of states, $A$ is the number of actions, and $K$ is the number of episodes. Our results significantly improve upon the recent work of (Rosenberg and Mansour, 2020) which only considers the full-information setting and achieves suboptimal regret. Our work is also the first to consider bandit feedback with adversarial costs. Our algorithms are built on top of the Online Mirror Descent framework with a variety of new techniques that might be of independent interest, including an improved multi-scale expert algorithm, a reduction from general stochastic shortest path to a special loop-free case, a skewed occupancy measure space, and a novel correction term added to the cost estimators. Interestingly, the last two elements reduce the variance of the learner via positive bias and the variance of the optimal policy via negative bias respectively, and having them simultaneously is critical for obtaining the optimal high-probability bound in the bandit feedback setting.

연구 동기 및 목표

알려진 전이 동역학 하에 적대적 비용 시퀀스가 존재하는 스토케스틱 최단경로 문제를 다루는 것.
로젠버그와 만수어(2020)의 이전 연구와 비교해 전체 정보 설정에서 리그레트 경계의 격차를 해소하는 것.
이전에 적대적 비용 하에서 연구되지 않았던 밴딧 피드백 설정으로 분석을 확장하는 것.
분산을 줄이고 고확률 리그레트 경계를 향상시키기 위한 새로운 알고리즘 기법을 개발하는 것.

제안 방법

정책의 상태-행동 분포 역학을 더 잘 캡처하기 위해, 새로운 비대칭 점유도 측도 공간을 활용한 온라인 미러 디센트 프레임워크를 적응한다.
밴딧 피드백에서의 안정성을 향상시키기 위해 분산을 줄이기 위해 비용 추정기의 보정 항을 도입한다.
구조적 변환을 통해 일반적인 스토케스틱 최단경로 문제를 순환 없는 특수 케이스로 환원한다.
경로 기반 정책의 계층적 구조를 다룰 수 있도록 개선된 다중 척도 전문가 알고리즘을 개발한다.
최적 정책 추정에서의 편향을 음성 편향을 통해 균형 잡는 방식으로 분산 감소 메커니즘을 구현한다.
이러한 구성 요소들을 통합된 리그레트 최소화 프레임워크 내에 통합하여 날카운 고확률 경계를 달성한다.

실험 결과

연구 질문

RQ1전체 정보 피드백 하에서, 적대적 비용과 알려진 전이 조건이 존재하는 스토케스틱 최단경로 문제에서 달성 가능한 최소 최대 리그레트는 무엇인가?
RQ2로젠버그와 만수어(2020)의 연구에서의 비최적 결과를 초월해 전체 정보 설정에서 리그레트 경계를 향상시킬 수 있는가?
RQ3이전에 적대적 비용 하에서 연구되지 않았던 밴딧 피드백 설정에서의 최소 최대 리그레트는 무엇인가?
RQ4고확률 리그레트 경계를 유지하면서 비용 추정의 분산을 효과적으로 줄일 수 있는 방법은 무엇인가?
RQ5밴딧 피드백 케이스에서 최적 리그레트를 달성하기 위해 필요한 새로운 알고리즘 구성 요소는 무엇인가?

주요 결과

논문은 전체 정보 설정에서 $O(\sqrt{DT_\star K})$의 최소 최대 리그레트를 확립하여, 로젠버그와 만수어(2020)의 비최적 경계를 향상시켰다.
이 연구는 적대적 비용 하에서 밴딧 피드백 설정에 대한 첫 번째 리그레트 경계를 제공하며, $O(\sqrt{DT_\star SA K})$의 리그레트를 달성하였다.
비대칭 점유도 측도 공간의 사용은 정책 분포 제어를 향상시키고 추정 오차를 감소시킨다.
비용 추정기의 새로운 보정 항은 분산을 줄이기 위해 정성적 편향을 도입하여 밴딧 피드백에서의 안정성을 향상시킨다.
학습 과정에서의 정성적 편향과 최적 정책 추정에서의 음성 편향의 조합은 최적의 고확률 리그레트 경계를 달성하는 데 핵심적이다.
다양한 척도 전문가 알고리즘과 순환 없는 환원 기법은 본 연구 외적 관심을 끌 수 있으며, 이 외의 설정으로도 일반화 가능할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.