QUICK REVIEW

[論文レビュー] Fast Bidirectional Probability Estimation in Markov Models

Siddhartha Banerjee, Peter Lofgren|arXiv (Cornell University)|Jul 21, 2015

Markov Chains and Monte Carlo Methods参考文献 20被引用数 24

ひとこと要約

この論文は、スパースなマルコフ連鎖における多段遷移確率の高速かつ高精度な推定のための、新しい双方向アルゴリズムを紹介する。ターゲット状態からの逆方向ローカルパワー反復と前向きのモンテカルロサンプリングを組み合わせることで、閾値δより高い確率を検出するのに$O(1/\sqrt{\delta})$の実行時間となり、ソーシャルグラフのようなスパースネットワークでは、標準的なモンテカルロ法やパワー反復法と比べて、桁違いの高速化を達成する。

ABSTRACT

We develop a new bidirectional algorithm for estimating Markov chain multi-step transition probabilities: given a Markov chain, we want to estimate the probability of hitting a given target state in $\ell$ steps after starting from a given source distribution. Given the target state $t$, we use a (reverse) local power iteration to construct an `expanded target distribution', which has the same mean as the quantity we want to estimate, but a smaller variance -- this can then be sampled efficiently by a Monte Carlo algorithm. Our method extends to any Markov chain on a discrete (finite or countable) state-space, and can be extended to compute functions of multi-step transition probabilities such as PageRank, graph diffusions, hitting/return times, etc. Our main result is that in `sparse' Markov Chains -- wherein the number of transitions between states is comparable to the number of states -- the running time of our algorithm for a uniform-random target node is order-wise smaller than Monte Carlo and power iteration based algorithms; in particular, our method can estimate a probability $p$ using only $O(1/\sqrt{p})$ running time.

研究の動機と目的

マルコフ連鎖における多段遷移確率を推定するための、既存の手法（モンテカルロ法およびパワー反復法）の計算上の非効率性を解消すること。
任意の離散状態マルコフ連鎖（非可逆的・非対称的を含む）に適用可能な汎用的で双方向のアルゴリズムを開発すること。
特に遷移数が状態数と同程度のスパースなマルコフ連鎖において、既存手法よりも順序的に速い実行時間を達成すること。
PageRank やグラフ拡散、大規模ネットワークにおけるヒートカーネル計算といった応用分野における遷移確率の効率的推定を可能にすること。
ターゲット固有の構造に動的に適応することで、分散を低減し、少ないサンプル数で精度を向上させる手法を提供すること。

提案手法

ターゲット状態$t$から逆方向ローカルパワー反復（REVERSE-PUSH）を実行し、分散が小さい拡張されたターゲット分布を構築する。
この拡張された分布は、望ましい遷移確率を近似するが、分散が小さいため、効率的なモンテカルロサンプリングが可能になる。
前向きの処理では、元分布$\mathbf{\sigma}$から$\ell$ステップのランダムウォークをサンプリングし、逆方向に構築した分布を重み付けに用いて確率を推定する。
ローカルパワー反復とモンテカルロサンプリングを組み合わせ、残留誤差が小さく、高精度を保証するように逆方向反復の回数を動的に調整する。
アルゴリズムはアルゴリズム2で形式化されており、相対誤差の境界を満たす高確率で不偏推定量を生成することが証明されている。
同じ逆方向・前向きフレームワークを活用することで、PageRank やヒートカーネルといった多段確率関数への応用が自然に拡張可能である。

実験結果

リサーチクエスチョン

RQ1一般の離散状態マルコフ連鎖における多段遷移確率を推定する双方向アルゴリズムを、既存のモンテカルロ法やパワー反復法よりも効率的に設計できるか？
RQ2提案手法が、特にスパースなマルコフ連鎖において、閾値$\delta$より高い確率を検出するのに$O(1/\sqrt{\delta})$の実行時間となるか？
RQ3実世界のネットワークにおける双方向推定器の性能は、モンテカルロ法や前向きプッシュといった最先端手法と比べてどの程度か？
RQ4平均次数やターゲット分布の特性が、アルゴリズムの順序的高速化をもたらす設定はどのようなものか？
RQ5ヒートカーネル推定や大規模グラフにおけるパーソナライズドサーチといった実用的問題への適用が、効果的に可能か？

主な発見

双方向-MSTP推定器は、高確率で多段遷移確率の不偏推定量を提供し、$|\widehat{\mathbf{p}}_{\mathbf{\sigma}}^{\ell}[t] - \mathbf{p}_{\mathbf{\sigma}}^{\ell}[t]| < \max\{\epsilon\mathbf{p}_{\mathbf{\sigma}}^{\ell}[t], \delta\}$を満たす。
スパースなマルコフ連鎖における一様ランダムなターゲットに対して、アルゴリズムの実行時間は$\widetilde{O}(\ell^{3/2}\sqrt{\overline{d}/\delta})$となる。ここで$\overline{d}$は平均次数を表す。
閾値$\delta$より高い確率を検出するにあたり、$O(1/\sqrt{\delta})$の実行時間となる。これは、標準モンテカルロ法やパワー反復法の$\Omega(1/\delta)$に比べ、順序的に速い。
Twitter（15億エッジ）のような実世界のグラフにおいて、ヒートカーネル推定において、本手法は最先端手法よりも100倍速く、1ペアあたり0.1秒で10%の平均相対誤差を達成したのに対し、競合手法は4分以上を要した。
平均次数が低いが、一部のノードの次数が高いべきべき分布ネットワーク（パワー法則ネットワーク）においても、実行時間の上限に平均次数が依存するため、特に効果的である。
少数のターゲットノードに対してヒートカーネルやその他のグラフ拡散関数を効率的に計算可能であり、パーソナライズドサーチやコミュニティ検出タスクに最適である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。