[論文レビュー] A Granularity Characterization of Task Scheduling Effectiveness
論文はタスク実行のオーバーヘッドをタスクグラフの依存性トポロジーにリンクし、強スケーリングの限界を予測し、動的実行と静的実行の指針となる粒度測度を導入します。
Task-based runtime systems provide flexible load balancing and portability for parallel scientific applications, but their strong scaling is highly sensitive to task granularity. As parallelism increases, scheduling overhead may transition from negligible to dominant, leading to rapid drops in performance for some algorithms, while remaining negligible for others. Although such effects are widely observed empirically, there is a general lack of understanding how algorithmic structure impacts whether dynamic scheduling is always beneficial. In this work, we introduce a granularity characterization framework that directly links scheduling overhead growth to task-graph dependency topology. We show that dependency structure, rather than problem size alone, governs how overhead scales with parallelism. Based on this observation, we characterize execution behavior using a simple granularity measure that indicates when scheduling overhead can be amortized by parallel computation and when scheduling overhead dominates performance. Through experimental evaluation on representative parallel workloads with diverse dependency patterns, we demonstrate that the proposed characterization explains both gradual and abrupt strong-scaling breakdowns observed in practice. We further show that overhead models derived from dependency topology accurately predict strong-scaling limits and enable a practical runtime decision rule for selecting dynamic or static execution without requiring exhaustive strong-scaling studies or extensive offline tuning.
研究の動機と目的
- スケジューリングオーバーヘッドが、問題サイズだけでなくタスクグラフの依存性トポロジーを通じて並列性とともにどのようにスケールするかを説明する。
- スケジューリングオーバーヘッドが並列計算によって償却される時を示す、単純な粒度測度を提案する。
- トポロジー駆動のオーバーヘッドモデルおよびワークロードに依存しない、強スケーリング挙動を予測する統一フレームワークを開発する。
提案手法
- 依存性近傍を介して依存性トポロジーを定義し、グローバル、ローカル、独立パターンに分類する。
- カーネル作業量とスケジューリングオーバーヘッドの関係を表す粒度数 G = T_kernel / ((1-ρ) k τ_s) を導出する。
- rank数 P に対するトポロジー固有の形(例: グローバルは αP^2+β、ローカルは αP+β、独立は β)でスケジューリングオーバーヘッド T_overhead をモデル化する。
- T_overhead が相互タスク依存エッジ数 |E(P)| に比例してスケールすることを示し、各トポロジーでの G のスケーリングを導出する(G_global ~ P^-3、G_local ~ P^-2、G_independent ~ P^-1)。
- ワークロードに依存しないオーバーヘッド–粒度関係を提示:Ω% = 100/(G+1) を用い、実行段階を有益、限界、消極的の領域に分類する。
- FFT、ストencil、スイープ、GEMM、その他のワークロードに対してモデルを較正・検証し、強スケーリングの限界と動的–静的のクロスオーバーを予測する。
実験結果
リサーチクエスチョン
- RQ1異なる依存性トポロジーに対して、スケジューリングオーバーヘッドは並列性とともにどのようにスケールするか?
- RQ2有益な動的スケジューリングと有害な動的スケジューリングの転換を単純な粒度指標が捉えられるか?
- RQ3トポロジー駆動のオーバーヘッドモデルは、強スケーリングの限界と動的–静的実行間のクロスオーバーポイントをどれだけ正確に予測できるか?
主な発見
- スケジューリングオーバーヘッドの成長は問題サイズだけでなく依存性トポロジーに依存する。
- 単純な粒度数 G は多様なワークロード間でスケジューリング挙動を統一し、データをワークロードに依存しない曲線へ畳み込む。
- グローバル依存は強スケーリング下で G の急速な(三乗的)減衰を生じさせるのに対し、ローカルおよび独立パターンはより遅い(二乗・線形)減衰を示す。
- オーバーヘッド比 Ω% は 100/(G+1) であり、動的スケジューリングが有利となる閾値(G>10)、限界的(1<G≤10)、不利(G≤1)を実用的に判断できる。
- FFT、ストencil、スイープ、GEMM、SpMV、Conv2D、PageRank、N-Body などで較正した結果、トポロジークラス間の強スケーリングの限界とクロスオーバーポイント(P*)を予測できることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。