Skip to main content
QUICK REVIEW

[論文レビュー] A Fixed Point Theorem for Iterative Random Contraction Operators over Banach Spaces.

Abhishek Gupta, Rahul Jain|arXiv (Cornell University)|Apr 4, 2018
Fixed Point Theorems Analysis被引用数 1
ひとこと要約

本稿は、バナッハ空間上の反復的確率的収縮作用素が、サンプル数 $n$ と反復回数 $k$ がともに無限大に近づく際に、固定点 $x^\star$ におけるデルタ関数へ確率的に収束する十分条件を確立する。反復の各ステップで $x^\star$ から著しく逸脱する確率に対する上界を導出し、割引コストおよび平均コストを伴うマルコフ決定過程における確率的価値反復のための確率的収束保証を可能にする。

ABSTRACT

Consider a contraction operator $T$ over a complete metric space $\mathcal X$ with the fixed point $x^\star$. In many computational applications, it is difficult to compute $T(x)$; therefore, one replaces the application contraction operator $T$ at iteration $k$ by a random operator $\hat T^n_k$ using $n$ independent and identically distributed samples of a random variable. Consider the Markov chain $(\hat X^n_k)_{k\in\mathbb{N}}$, which is generated by $\hat X^n_{k+1} = \hat T^n_k(\hat X^n_k)$. In this paper, we identify some sufficient conditions under which (i) the distribution of $\hat X^n_k$ converges to a Dirac mass over $x^\star$ as $k$ and $n$ go to infinity, and (ii) the probability that $\hat X^n_k$ is far from $x^\star$ as $k$ goes to infinity can be made arbitrarily small by an appropriate choice of $n$. We also derive an upper bound on the probability that $\hat X^n_k$ is far from $x^\star$ as $k ightarrow \infty$. We apply the result to study the convergence in probability of iterates generated by empirical value iteration algorithms for discounted and average cost Markov decision problems.

研究の動機と目的

  • 確率的収縮作用素が、決定的収縮作用素の固定点へ確率分布として収束するための条件を確立すること。
  • 反復回数が増加する際、確率的固定点反復の各反復が真の固定点から遠ざかる確率を定量化すること。
  • 反復回数 $k$ が非常に大きくなる極限における、固定点からの逸脱確率の上界を非漸近的に導出すること。
  • 理論的結果を、割引コストおよび平均コストを伴うマルコフ決定過程における経験的価値反復アルゴリズムに適用すること。

提案手法

  • 反復的プロセスを、$n$ 個の独立同一分布に従う標本に基づく確率的作用素 $\hat T^n_k$ によって駆動されるマルコフ連鎖 $\hat X^n_k$ としてモデル化する。
  • バナッハ空間における収縮写像の原理を用いて、固定点 $x^\star$ の存在と一意性を保証する。
  • 標本数 $n$ に基づく高確率で $\hat T^n_k$ が真の作用素 $T$ から逸脱しないようにするための濃度不等式を適用する。
  • $k \to \infty$ の極限において、$\|\hat X^n_k - x^\star\|$ が所定の閾値を超える確率に対する非漸近的上界を導出する。
  • マルコフ連鎖のエルゴード性および安定性の性質を組み合わせることで、$x^\star$ におけるデルタ関数への分布収束を示す。

実験結果

リサーチクエスチョン

  • RQ1$k, n \to \infty$ のとき、$\hat X^n_k$ の分布が固定点 $x^\star$ におけるデルタ関数に収束する条件は何か?
  • RQ2適切に $n$ を選べば、$\hat X^n_k$ が $x^\star$ から遠ざかる確率を $k \to \infty$ のとき任意に小さくできるか?
  • RQ3反復回数 $k$ が非常に大きくなる極限において、$\hat X^n_k$ が $x^\star$ から逸脱する確率に対する非漸近的上界は何か?
  • RQ4理論的枠組みを用いて、MDPにおける経験的価値反復の確率的収束を保証できるか?

主な発見

  • $k$ と $n$ がともに無限大に近づく際、$\hat X^n_k$ の分布は固定点 $x^\star$ におけるデルタ関数に確率的に収束する。
  • 任意の $\epsilon > 0$ に対して、十分大きな $n$ が存在し、$k \to \infty$ のとき確率 $\mathbb{P}(\|\hat X^n_k - x^\star\| > \epsilon)$ を任意に小さくできる。
  • 反復回数 $k$ が非常に大きくなる極限において、$\hat X^n_k$ が $x^\star$ から遠ざかる確率に対する上界が導出され、その値は $n$ および作用素 $T$ の収縮性に依存する。
  • 理論的結果を用いて、割引コストおよび平均コストを伴うMDPにおける経験的価値反復アルゴリズムの確率的収束を示すことができる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。