QUICK REVIEW

[論文レビュー] Efficient Parallel Simulations of Asynchronous Cellular Arrays

Boris D. Lubachevsky|ArXiv.org|Feb 8, 2005

Cellular Automata and Applications参考文献 8被引用数 56

ひとこと要約

本稿では、細胞の更新を独立したポアソン過程で定義する非同期セルラー配列の新しいクラスを提案し、各プロセッシングエレメント（PE）に1つ以上のセルを割り当てることで、並列アルゴリズムを効率的に設計した。これにより、PE間でのローカル時刻の違いを許容できる。同期の必要がなくなることで、BKLアルゴリズムを統合し、性能を向上させ、非同期系の効率的並列シミュレーションが、元のマルコフ連鎖を変更せずに実現可能であることを示した。速度向上は25 PEで16以上、16,384 PEで1900以上を達成した。

ABSTRACT

A definition for a class of asynchronous cellular arrays is proposed. An example of such asynchrony would be independent Poisson arrivals of cell iterations. The Ising model in the continuous time formulation of Glauber falls into this class. Also proposed are efficient parallel algorithms for simulating these asynchronous cellular arrays. In the algorithms, one or several cells are assigned to a processing element (PE), local times for different PEs can be different. Although the standard serial algorithm by Metropolis, Rosenbluth, Rosenbluth, Teller, and Teller can simulate such arrays, it is usually believed to be without an efficient parallel counterpart. However, the proposed parallel algorithms contradict this belief proving to be both efficient and able to perform the same task as the standard algorithm. The results of experiments with the new algorithms are encouraging: the speed-up is greater than 16 using 25 PEs on a shared memory MIMD bus computer, and greater than 1900 using 2**14 PEs on a SIMD computer. The algorithm by Bortz, Kalos, and Lebowitz can be incorporated in the proposed parallel algorithms, further contributing to speed-up. [In this paper I invented the update-cites-of-local-time-minima parallel simulation scheme. Now the scheme is becoming popular. Many misprints of the original 1987 Complex Systems publication are corrected here.-B.L.]

研究の動機と目的

セルラー配列における非同期性の自然で数学的に明確なクラスを定義すること。特に、Glauberイジング模型のような現実世界のダイナミクスを捉えるポアソン過程に基づくセル更新を含むこと。
長年の常識である「非同期シミュレーションには効率的な並列版がない」という考えを覆すために、正しさと再現可能性を保証するアルゴリズムを設計すること。
元のマルコフ連鎖を変更せずに、非同期系における一時的および平衡的挙動の高性能シミュレーションを可能にすること。
PE間の遅延が有限である場合でも並列効率が達成可能であることを示し、実世界の実装における実用性を保証すること。

提案手法

各セルの更新が独立したポアソン過程（レートλ）に従い、状態変化がそのセルおよび周辺セルの現在の状態にのみ依存する非同期セルラー配列のクラスを定義すること。
1つ以上のセルを各プロセッシングエレメント（PE）に割り当て、各PEが独自のローカル時刻を維持できるようにすることで、同期なしの独立した計算を可能にすること。
失敗した状態変更による無駄な計算を回避するため、Bortz-Kalos-Lebowitz（BKL）アルゴリズムを用いた修正メトロポリスアルゴリズムを採用すること。
PEごとの近傍構成に基づく確率的更新ルールを実装：角セル（|W(c)|=0）では確率p₀、縁セル（|W(c)|=1）ではp₁、角セル（|W(c)|=2）ではp₂を用い、対応する局所エネルギー値h(C)を更新すること。
性能を予測する簡略化モデルを採用。各PEは部分配列をシミュレートし、隣接セルとの比較に基づき局所エネルギーを更新する。効率性は、シリアル実行時間 ÷（PE数 × 並列実行時間）として計算する。
バスベース通信システムを備えた共有メモリMIMDアーキテクチャを採用。各PEが再現可能で独立した疑似乱数生成器を維持することで、シミュレーションの再現性を保証すること。

実験結果

リサーチクエスチョン

RQ1Glauberイジング模型のようなモデルを含む、一般で数学的に明確な非同期セルラー配列のクラスを定式化することは可能か？
RQ2同期のオーバーヘッドを回避し、正しさを保証するような、このような非同期配列のための並列シミュレーションアルゴリズムを設計することは可能か？
RQ3BKLアルゴリズムを非同期で並列実行可能なフレームワークに効果的に統合し、元の確率過程を変更せずに性能を向上させることは可能か？
RQ4PE間の最大遅延が制限されている場合、並列アルゴリズムの効率はどの程度低下するか？また、実用的性能を確保するための閾値は何か？

主な発見

25 PEsを用いた120×120イジング模型のシミュレーションにおいて、提案された並列アルゴリズムは16以上の速度向上を達成した。
16,384 PEsを用いた場合、速度向上は1900を超えた。これは、SIMDアーキテクチャ上でも強スケーラビリティを示している。
簡略化された性能モデルでは、10⁴ PEsが10⁴×10⁴配列をシミュレートする場合、効率が約0.8、速度向上が約8,000であると予測された。
PE間の遅延上限が16時間単位（到着間隔の期待値）を超えた場合でも、効率はわずかに低下し、無制限の場合の80％以上を維持した。
非常にきつい遅延上限（0.3）であっても、効率は約0.1に保たれ、1024 PEsで100以上の実用的スピードアップが達成された。
並列フレームワークへのBKLアルゴリズムの統合は、性能向上に顕著な貢献を示し、非同期で並列実行可能であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。