QUICK REVIEW

[論文レビュー] Re-evaluating scaling methods for distributed parallel systems

János Végh|arXiv (Cornell University)|Feb 17, 2020

Distributed and Parallel Computing Systems被引用数 1

ひとこと要約

この論文は、分散並列システムにおけるアムダールの法則を再評価し、α を命令レベル並列性として解釈するのではなく、時間ベースの並列化可能部分として解釈する誤解が、スケーリング予測の誤りを引き起こしたと主張している。研究では、処理時間に基づいて適切に解釈された場合、アムダールの法則がスーパーコンピュータおよびクラウドシステムにおいて性能の限界を正確にモデル化できることを示しており、AWS、Azure、Edison スーパーコンピュータでのHPCGおよびHPLベンチマークによる主要な検証が行われている。

ABSTRACT

The paper explains why Amdahl's Law shall be interpreted specifically for distributed parallel systems and why it generated so many debates, discussions, and abuses. We set up a general model and list many of the terms affecting parallel processing. We scrutinize the validity of neglecting certain terms in different approximations, with special emphasis on the famous scaling laws of parallel processing. We clarify that when using the right interpretation of terms, Amdahl's Law is the governing law of all kinds of parallel processing. Amdahl's Law describes among others the history of supercomputing, the inherent performance limitation of the different kinds of parallel processing and it is the basic Law of the 'modern computing' paradigm, that the computing systems working under extreme computing conditions are desperately needed.

研究の動機と目的

分散並列システムにおけるアムダールの法則の広範な誤解を是正すること。
α が命令数ではなく、並列化可能な作業の時間割合を表すべきであることを明確にすること。
クラウドおよびスーパーコンピューティングプラットフォーム上で実世界のHPCベンチマークを用いてアムダールの法則を検証すること。
不適切な測定アーティファクト（例：ネットワークアクセス時間）が効率性およびαの推定値を歪める理由を示すこと。
測定に外国のパフォーマンスオーバーヘッドを無視すると、強スケーリング予測が失敗することを示すこと。

提案手法

α を合計実行時間のうち並列化可能な作業に費やされる時間の割合として定義する、時間ベースのアムダールの法則の再解釈を提唱する。
強スケーリングおよび弱スケーリングの有効範囲を可視化する簡略化されたモデルを導入する。
クラウドサービス（AWS、Azure、Rackspace、SoftLayer）およびスーパーコンピュータ（Edison）からの測定実行時間を用いて、有効なαおよび効率性を計算する。
異なるクラウドおよびスーパーコンピューティングプラットフォーム上でHPCGおよびHPLベンチマークのデータを分析し、スケーリング行動を評価する。
バックプロジェクション技術を用いて1プロセッサの効率性および (1−α) を推定し、測定アーティファクトを検出する。
異なるプラットフォーム間で観察された効率性および (1−α) の傾向を比較することで、ネットワークおよびI/Oオーバーヘッドに起因する系統的誤差を特定する。

実験結果

リサーチクエスチョン

RQ1なぜアムダールの法則が分散並列システムで誤って適用されてきたのか。そしてαの正しい解釈は何か。
RQ2測定アーティファクト（特にクラウドベースのシステムにおけるネットワークアクセス時間）が、クラウドシステムにおける効率性およびα推定値にどのように歪めをもたらすのか。
RQ3アムダールの法則は、実世界のHPCおよびクラウド環境において、どれほど正確にパフォーマンススケーリングを予測できるのか。
RQ4同じハードウェアを備えた異なるクラウドプラットフォーム（例：AWS、Azure Fシリーズ）が、なぜ異なるスケーリング行動を示すのか。
RQ5真の並列化限界と、測定誤差に起因する人工的なパフォーマンス劣化をどう区別できるか。

主な発見

α が並列化可能な作業の時間割合として正しく解釈されれば、アムダールの法則はスーパーコンピュータおよびクラウドシステムにおいて性能の限界を正確に記述する。
測定アーティファクト（特にクラウドベンチマークで無視されがちなアクセス時間）が原因で、単一コアシステムでも効率性が100％未満に低下し、α推定値が歪められる。
バックプロジェクションによる (1−α) 値は、プラットフォームを問わず一貫して1に近づくことが確認され、α が測定誤差によって人工的に上昇していないことを裏付けている。
TOP500クラスのスーパーコンピュータのα値は、クラウドグリッドのそれよりも約1000倍優れているため、プロセッサ数が非常に多い場合にのみ顕著な差が現れる。
αに基づく効率性ランクは、効率性ランクとは逆転しており、サービスの価格と強く相関している。これはαがシステムのオーバーヘッドの代理であることを示唆している。
クラウドプラットフォームにおけるHPCGベンチマークでは、アクセス時間を合計実行時間から除外すれば、αを適切に測定した場合、スーパーコンピュータと同等のパフォーマンスを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。