QUICK REVIEW

[論文レビュー] Hoeffding's lemma for Markov Chains and its applications to statistical learning

Jianqing Fan, Bai Jiang|arXiv (Cornell University)|Feb 1, 2018

Markov Chains and Monte Carlo Methods参考文献 44被引用数 23

ひとこと要約

本稿は、一般状態空間で非可逆なマルコフ連鎖に対して、ホイーディングの補題および不等式を一般化する。導入されたスペクトルギャップに依存する乗法的係数 (1+λ)/(1−λ) において、λ は平均ゼロで二階可積分関数の空間上での遷移核の作用素ノルムである。主な貢献は、マルコフ連鎖の有界関数の和に対してサブガウス型の境界を確立することであり、λ=0 のときには古典的なホイーディングの境界に還元され、時間依存関数および非可逆連鎖へと先行研究を一般化する。

ABSTRACT

We extend Hoeffding's lemma to general-state-space and not necessarily reversible Markov chains. Let $\{X_i\}_{i \ge 1}$ be a stationary Markov chain with invariant measure $π$ and absolute spectral gap $1-λ$, where $λ$ is defined as the operator norm of the transition kernel acting on mean zero and square-integrable functions with respect to $π$. Then, for any bounded functions $f_i: x \mapsto [a_i,b_i]$, the sum of $f_i(X_i)$ is sub-Gaussian with variance proxy $\frac{1+λ}{1-λ} \cdot \sum_i \frac{(b_i-a_i)^2}{4}$. This result differs from the classical Hoeffding's lemma by a multiplicative coefficient of $(1+λ)/(1-λ)$, and simplifies to the latter when $λ= 0$. The counterpart of Hoeffding's inequality for Markov chains immediately follows. Our results assume none of countable state space, reversibility and time-homogeneity of Markov chains and cover time-dependent functions with various ranges. We illustrate the utility of these results by applying them to six problems in statistics and machine learning.

研究の動機と目的

独立した確率変数から一般状態空間のマルコフ連鎖へホイーディングの補題および不等式を一般化すること。
先行研究を制限する可逆性、時不変性、可算状態空間の仮定を排除すること。
時間依存の有界関数のマルコフ連鎖の和に対して、スペクトルギャップを通じて依存性を明示的に特徴づけるサブガウス型境界を導出すること。
時間不変関数の場合に、λ を max{λr, 0} に置き換えることで鋭い集中不等式を提供すること。ここで λr は加法的可逆化 (P+P*)/2 の右スペクトルギャップである。
MCMC推定やマルチアームバンディットを含む六つの統計的および機械学習的応用において、新規境界の有効性を示すこと。

提案手法

不変測度 π のもとでの平均ゼロで二階可積分関数の空間 L0₂(π) 上での遷移核 P の作用素ノルムを λ と定義し、絶対スペクトルギャップ 1−λ を定義する。
新たなホイーディング型指数モーメント境界を確立：任意の t∈ℝ および有界関数 fi: X→[ai,bi] に対して、E[exp(t∑(fi(Xi)−∫fi dπ))] ≤ exp(t²/2 × (1+λ)/(1−λ) × ∑(bi−ai)²/4) が成り立つ。
加法的可逆化 (P+P*)/2 を用いて λr（右に最も近いスペクトル値）を定義し、時間不変関数 f の場合に λ を max{λr, 0} に置き換えることで境界が改善されることを示す。
境界を適用して、∑fi(Xi) のサブガウス型集中不等式を導出し、分散代理 α(λ) × ∑(bi−ai)²/4 を持つ。ここで α(λ)=(1+λ)/(1−λ) である。
定常性、関数の有界性、不変測度 π の存在という最小限の仮定のもとで境界が成り立つことを証明する。
ホルダーの不等式およびマルコフ作用素のスペクトル性質を用いて、和のモーメント生成関数を制御し、作用素ノルム λ および可逆化を活用して境界を精緻化する。

実験結果

リサーチクエスチョン

RQ1可算状態空間や時不変性を仮定しない一般の非可逆マルコフ連鎖へ、ホイーディングの補題を拡張することは可能か？
RQ2基礎となる確率変数がマルコフ連関している場合、古典的ホイーディングの境界に適用すべき正しい乗法的補正係数は何か？
RQ3遷移核のスペクトルギャップ λ が、マルコフ連鎖の有界関数の和の集中にどのように影響するか？
RQ4時間不変関数の場合に、λ の代わりに右スペクトルギャップ λr を用いることで境界を鋭くできるか？
RQ5この新しい集中不等式は、従属データを伴う実際の統計的および機械学習問題にどの程度応用可能か？

主な発見

本稿は、定常マルコフ連鎖の有界関数の和に対して、新たなホイーディング型指数モーメント境界を確立した：E[exp(t∑(fi(Xi)−∫fi dπ))] ≤ exp(t²/2 × (1+λ)/(1−λ) × ∑(bi−ai)²/4)。ここで λ は L0₂(π) 上での遷移核 P の作用素ノルムである。
λ=0 のとき、境界は正確に古典的ホイーディングの補題に還元され、独立な場合との整合性が確認される。
時間不変関数の場合（f1=⋯=fn=f）には、λ を max{λr, 0} に置き換えることで境界を改善でき、よりタイトな係数 α(max{λr, 0})=(1+max{λr, 0})/(1−max{λr, 0}) を得る。
導出された集中不等式は、ミアソジェドウ（2014）およびレオンとパロン（2004）を一般化し、時間依存関数および非可逆連鎖へと拡張する。
本稿では、一般設定において ∑fi(Xi) のサブガウス性を初めて形式的に確立し、マルコフ連関する和の根本的特徴づけを提供する。
境界は六つの問題に応用された：スパース共分散推定、MCMC推定、マルチアームバンディットなど。その結果、バンディットにおける期待リグレットが O(log T / Δj²) の形でスケーリングされ、スペクトルギャップに依存する定数を伴い、先行研究を改善することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。