QUICK REVIEW

[論文レビュー] Minimax Regret for Stochastic Shortest Path with Adversarial Costs and Known Transition

Liyu Chen, Haipeng Luo|arXiv (Cornell University)|Jul 7, 2021

Advanced Bandit Algorithms Research被引用数 5

ひとこと要約

本稿は、敵対的コストと既知の遷移を伴う確率的最短経路問題に対する、新たなミニマックスレジストアルゴリズムを提案する。オンラインミラー降下を用い、歪んだ占有測度空間とコスト推定器における補正項といった新技術を導入する。完全情報設定では $O(\sqrt{DT_\star K})$ のレジストを達成し、バンディットフィードバック設定では $O(\sqrt{DT_\star SA K})$ を達成する。これは先行研究を著しく上回る。

ABSTRACT

We study the stochastic shortest path problem with adversarial costs and known transition, and show that the minimax regret is $O(\sqrt{DT_\star K})$ and $O(\sqrt{DT_\star SA K})$ for the full-information setting and the bandit feedback setting respectively, where $D$ is the diameter, $T_\star$ is the expected hitting time of the optimal policy, $S$ is the number of states, $A$ is the number of actions, and $K$ is the number of episodes. Our results significantly improve upon the recent work of (Rosenberg and Mansour, 2020) which only considers the full-information setting and achieves suboptimal regret. Our work is also the first to consider bandit feedback with adversarial costs. Our algorithms are built on top of the Online Mirror Descent framework with a variety of new techniques that might be of independent interest, including an improved multi-scale expert algorithm, a reduction from general stochastic shortest path to a special loop-free case, a skewed occupancy measure space, and a novel correction term added to the cost estimators. Interestingly, the last two elements reduce the variance of the learner via positive bias and the variance of the optimal policy via negative bias respectively, and having them simultaneously is critical for obtaining the optimal high-probability bound in the bandit feedback setting.

研究の動機と目的

敵対的コスト列と既知の遷移ダイナミクスを伴う確率的最短経路問題に対処すること。
RosenbergとMansour (2020) の先行研究と比較して、完全情報設定におけるレジストバウンドのギャップを埋めること。
敵対的コスト下で未だ研究されていなかったバンディットフィードバック設定への分析を拡張すること。
分散を低減し、高確率レジストバウンドを改善するための新たなアルゴリズム的技術を開発すること。

提案手法

状態行動分布のダイナミクスをよりよく捉えるために、新たな歪んだ占有測度空間を用いたオンラインミラー降下フレームワークを適応する。
バンディットフィードバックにおける安定性を向上させるために、分散を低減する正のバイアスを導入するコスト推定器における補正項を提案する。
構造的変換を用いて一般の確率的最短経路問題をループのない特殊ケースに還元する。
経路ベースのポリシーの階層的構造を扱うための改善されたマルチスケールエキスパートアルゴリズムを開発する。
最適ポリシー推定における負のバイアスを用いて、分散低減機構が最適ポリシー推定のバイアスをバランスさせる。
これらの要素を統合的なレジスト最小化フレームワークに組み合わせ、きつい高確率バウンドを達成する。

実験結果

リサーチクエスチョン

RQ1敵対的コストと既知の遷移を伴う確率的最短経路問題において、完全情報フィードバック下で達成可能なミニマックスレジストは何か？
RQ2RosenbergとMansour (2020) のサブオプティマルな結果を超えて、完全情報設定におけるレジストバウンドを改善できるか？
RQ3敵対的コスト下で未だ研究されていなかったバンディットフィードバック設定におけるミニマックスレジストは何か？
RQ4高確率レジストバウンドを維持しつつ、コスト推定の分散を効果的に低減するにはどうすればよいか？
RQ5バンディットフィードバックケースで最適レジストを達成するために、どのような新しいアルゴリズム的要素が必要か？

主な発見

本稿は、完全情報設定において $O(\sqrt{DT_\star K})$ のミニマックスレジストを確立し、RosenbergとMansour (2020) のサブオプティマルなバウンドを改善した。
敵対的コスト下でのバンディットフィードバック設定に対する最初のレジストバウンドを提供し、$O(\sqrt{DT_\star SA K})$ のレジストを達成した。
歪んだ占有測度空間の使用により、ポリシー分布の制御が向上し、推定誤差が低減された。
コスト推定器における新規補正項は、分散を低減する正のバイアスを導入し、バンディットフィードバックにおける安定性を向上させた。
学習における正のバイアスと最適ポリシー推定における負のバイアスの組み合わせが、最適な高確率レジストバウンドを達成するために不可欠である。
マルチスケールエキスパートアルゴリズムやループのない還元といった、本稿で提案された技術は、独立した価値を持ち、この設定を超えて一般化可能である可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。