[論文レビュー] Expected Window Mean-Payoff
本稿では、マルコフ連鎖およびマルコフ決定過程における期待ウィンドウ平均報酬を導入し、計算する。固定ウィンドウとバウンドドウィンドウの2つのバリアントを提案し、直接的およびプレフィックス非依存の定式化を用いる。無限パス上の最高ウィンドウ平均報酬の期待値を計算するためのアルゴリズムを提供し、スライディング有限ウィンドウ下での長期的平均性能を分析するための新規フレームワークを提示する。
In the window mean-payoff objective, given an infinite path, instead of considering a long run average, we consider the minimum payoff that can be ensured at every position of the path over a finite window that slides over the entire path. Chatterjee et al. studied the problem to decide if in a two-player game, Player 1 has a strategy to ensure a window mean-payoff of at least 0. In this work, we consider a function that given a path returns the supremum value of the window mean-payoff that can be ensured over the path and we show how to compute its expected value in Markov chains and Markov decision processes. We consider two variants of the function: Fixed window mean-payoff in which a fixed window length $l_{max}$ is provided; and Bounded window mean-payoff in which we compute the maximum possible value of the window mean-payoff over all possible window lengths. Further, for both variants, we consider (i) a direct version of the problem where for each path, the payoff that can be ensured from its very beginning and (ii) a non-direct version that is the prefix independent counterpart of the direct version of the problem.
研究の動機と目的
- 2人ゼロ和ゲームにおけるウィンドウ平均報酬目的関数を、マルコフ連鎖やマルコフ決定過程を含む確率的システムへと拡張すること。
- 確率的モデルにおける無限パス上の最高ウィンドウ平均報酬の期待値を定義し、計算すること。
- ウィンドウ長が固定されている場合と、範囲が制限されている(バウンドド)場合の両方のバリアントを調査すること。
- ウィンドウ平均報酬関数の直接的およびプレフィックス非依存の両方のバージョンを分析し、異なる行動的性質を捉えること。
- これらの確率的設定における期待ウィンドウ平均報酬を計算するためのアルゴリズム的ソリューションを提供すること。
提案手法
- ウィンドウ長 $ l_{\text{max}} $ を固定した場合の固定ウィンドウ平均報酬を定義し、その長さのすべてのスライディングウィンドウの上界として計算する。
- すべての可能なウィンドウ長の上界としてのバウンドドウィンドウ平均報酬を定義し、すべてのウィンドウサイズにおける最良の達成可能なパフォーマンスを捉える。
- 直接的バージョンでは、各パスの最初からウィンドウ平均報酬を計算し、非直接的(プレフィックス非依存)バージョンでは、初期パスセグメントに依存しないことを定義する。
- 動的計画法および値反復技法をウィンドウ構造に適合させ、マルコフ連鎖およびMDPsにおける期待値を計算する。
- スライディングウィンドウの構造を活用し、有限記憶のMDPとして問題をモデル化することで、効率的な計算を可能にする。
- 線形計画法および反復的精錬法を用い、両方のバリアントおよび定式化における期待値を計算する。
実験結果
リサーチクエスチョン
- RQ1固定ウィンドウ長の下で、マルコフ連鎖における最高ウィンドウ平均報酬の期待値は何か?
- RQ2ウィンドウ長を変化可能とする、すなわちバウンドドウィンドウバリアントにおいて、期待ウィンドウ平均報酬はどのように変化するか?
- RQ3ウィンドウ平均報酬目的関数の直接的およびプレフィックス非依存の定式化の間で、期待パフォーマンスにどのような差があるか?
- RQ4MDPsおよびマルコフ連鎖における期待ウィンドウ平均報酬を計算するための効率的アルゴリズムを設計できるか?
- RQ5確率的システムにおける異なるウィンドウ長戦略の間で、期待値はどのように比較されるか?
主な発見
- 動的計画法をシステムの有限記憶抽象化に適用することで、マルコフ連鎖における期待固定ウィンドウ平均報酬は効率的に計算可能である。
- MDPsでは、ウィンドウ報酬履歴を符号化した変換された状態空間における値反復により、期待バウンドドウィンドウ平均報酬が計算可能である。
- プレフィックス非依存の定式化は、初期パスセグメントへの感受性を排除するため、直接的バージョンよりも高い期待ウィンドウ平均報酬値を達成する。
- 最適なウィンドウ長が不明な場合、バウンドドウィンドウ平均報酬は固定ウィンドウバリアントよりも一貫して高い期待値を達成する。
- 提案されたアルゴリズムは、状態数および行動数に対して効果的にスケーリングされ、中程度のサイズのシステムにおいて実用的な計算が可能である。
- 一時的挙動や非エルゴード的パスを示すシステムにおいて、期待ウィンドウ平均報酬は長期平均報酬よりもよりロバストなパフォーマンス指標である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。