[論文レビュー] Asynchronous iterative computations with Web information retrieval structures: The PageRank case
本稿では、スケーラブルなWebグラフ上でPageRankを計算する非同期反復手法を提案する。分散コンピューティングを活用することで、同期ボトルネックを回避する。同期的メッセージ伝達を非同期更新に置き換えることで、メッセージ量が増加するものの、10–20%のわずかな性能向上を達成し、Gridのような異種プラットフォーム上でも大規模情報検索の実現可能性を示している。
There are several ideas being used today for Web information retrieval, and specifically in Web search engines. The PageRank algorithm is one of those that introduce a content-neutral ranking function over Web pages. This ranking is applied to the set of pages returned by the Google search engine in response to posting a search query. PageRank is based in part on two simple common sense concepts: (i)A page is important if many important pages include links to it. (ii)A page containing many links has reduced impact on the importance of the pages it links to. In this paper we focus on asynchronous iterative schemes to compute PageRank over large sets of Web pages. The elimination of the synchronizing phases is expected to be advantageous on heterogeneous platforms. The motivation for a possible move to such large scale distributed platforms lies in the size of matrices representing Web structure. In orders of magnitude: $10^{10}$ pages with $10^{11}$ nonzero elements and $10^{12}$ bytes just to store a small percentage of the Web (the already crawled); distributed memory machines are necessary for such computations. The present research is part of our general objective, to explore the potential of asynchronous computational models as an underlying framework for very large scale computations over the Grid. The area of ``internet algorithmics'' appears to offer many occasions for computations of unprecedent dimensionality that would be good candidates for this framework.
研究の動機と目的
- 大規模Webグラフ上のPageRank計算における同期的反復手法のスケーラビリティ制限を解決すること。
- 特にGridを含む大規模分散システムにおける非同期計算モデルの実現可能性を調査すること。
- グローバルなバリアやロックの排除により、反復的PageRank計算における同期オーバーヘッドを低減すること。
- 絶対的残差閾値ではなく相対的PageRank値に基づく収束基準の緩和が、ランク品質に与える影響を評価すること。
- すべて対すべてのメッセージ伝達パターンにおけるネットワークの過負荷を軽減するための適応的通信戦略の調査
提案手法
- Webリンク構造から導かれる確率的遷移行列Sを用いた標準的なPageRank定式化、G = αS + (1−α)ve^T で表されるGoogle行列Gを採用する。
- l1ノルムの保存を保つために、各ステップでの正規化を実施しない非同期反復によるパワー法の適用:x(t+1) = Gx(t)。
- 非ブロッキング送信/受信操作を用いて分散環境でのメッセージ伝達を実装し、計算が通信の完了を待たずに独立して進行可能であるようにする。
- 通信遅延に起因するネットワークバッファオーバーフローを防ぐために、動的メッセージキャンセルメカニズムを採用する。
- 絶対残差閾値ではなく、相対的ランク安定性に基づく緩和された収束基準を採用する。
- 通信オーバーヘッドを低減するためのすべて対すべての方式の代替案として、木構造通信トポロジを採用する。
実験結果
リサーチクエスチョン
- RQ1メッセージ量が増加するにもかかわらず、非同期反復手法が同期手法を上回る性能を発揮できるか?
- RQ2グローバルな同期が欠如している場合、大規模PageRank計算における収束性とランク精度にどのような影響が生じるか?
- RQ3厳密な残差閾値が存在しない状況下で、緩和された収束基準が相対的ランクをどの程度正確に保持できるか?
- RQ4通信パターンおよびネットワーク帯域幅制限が、分散PageRank計算における非同期反復アルゴリズムの性能に与える影響は?
- RQ5適応的通信戦略は、異種分散環境におけるネットワークの過負荷を軽減し、スケーラビリティを向上させることができるか?
主な発見
- 非同期計算により、同期手法と比較して10–20%のわずかな高速化が達成され、主に同期オーバーヘッドの排除によるものである。
- 非同期手法は同期手法よりも高いメッセージ生成レートを示し、ネットワーク負荷を増加させるが、これによりローカル反復の進行が速くなる。
- メッセージ量が増加しても、アルゴリズムは安定しており、妥当な相対的ランク品質を持つ解に収束する。
- 非同期ケースにおけるメッセージインポートの完了率は、ノード間で28%~45%の範囲にとどまり、通信サイクルが完全でないことを示しているが、依然として収束に十分な水準である。
- 現在のすべて対すべての通信パターンは、小さなクラスタでもネットワーク帯域幅を飽和させることが判明しており、トポロジに配慮したまたは適応的通信スキームの導入が不可欠であることを示している。
- 著者らは、通信を最小限に抑えるか、適応的に行うことで、特にGridのような異種環境において、非同期手法が大規模反復計算に実用的であると結論づけている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。