QUICK REVIEW

[論文レビュー] Anytime MiniBatch: Exploiting Stragglers in Online Distributed Optimization

Nuwan S. Ferdinand, Haider Al-Lawati|arXiv (Cornell University)|Jun 10, 2020

Stochastic Gradient Optimization Techniques被引用数 26

ひとこと要約

本稿では、ミニバッチサイズではなく1エポックあたりの計算時間を固定することで、遅延するノード（ストラグル）が存在する環境でも、高速・低速のワーカーが可変的に貢献できる分散オンライン最適化手法であるAnytime MiniBatch (AMB) を提案する。ストラグルからの部分的作業を活用し、コンSENSUSに基づく勾配平均化を用いることで、性能変動が著しい状況下でも固定ミニバッチ法に比べ最大5倍の高速な収束を達成し、最適なリグレット収束 $ olimits\mathcal{O}(\sqrt{\bar{m}})$ を実現する。

ABSTRACT

Distributed optimization is vital in solving large-scale machine learning problems. A widely-shared feature of distributed optimization techniques is the requirement that all nodes complete their assigned tasks in each computational epoch before the system can proceed to the next epoch. In such settings, slow nodes, called stragglers, can greatly slow progress. To mitigate the impact of stragglers, we propose an online distributed optimization method called Anytime Minibatch. In this approach, all nodes are given a fixed time to compute the gradients of as many data samples as possible. The result is a variable per-node minibatch size. Workers then get a fixed communication time to average their minibatch gradients via several rounds of consensus, which are then used to update primal variables via dual averaging. Anytime Minibatch prevents stragglers from holding up the system without wasting the work that stragglers can complete. We present a convergence analysis and analyze the wall time performance. Our numerical results show that our approach is up to 1.5 times faster in Amazon EC2 and it is up to five times faster when there is greater variability in compute node performance.

研究の動機と目的

ストラグルノードによる性能ボトルネックを解消し、遅延するノードが同期を妨げる分散オンライン最適化の課題に対処すること。
部分的な作業を破棄する代わりに活用する手法を設計し、システム効率を向上させること。
異種コンピューティング環境における壁時刻の最小化と、最適なリグレット収束（$\mathcal{O}(\sqrt{\bar{m}})$）を両立させること。
ストラグル効果を意図的に導入した実世界のクラウドおよびHPCプラットフォームにおいて、固定ミニバッチ法に比べ顕著な高速化を示すこと。

提案手法

各ワーカーの1エポックあたりの計算時間を（$T$）固定し、各ノードがその時間内に処理できるサンプル数に応じて可変的なミニバッチサイズを許容する。
計算終了後、全ワーカーが固定時間（$T_c$）のコンセンサス平均化を実行し、双対変数に基づいて勾配を同期化する。
集約された双対情報に基づき、双対平均化を用いてプライマル変数を更新することで、ノードごとのデータ寄与量が可変なオンライン最適化を実現する。
実験でストラグルをシミュレートするために、正規分布を用いた非一様かつ時間変動する計算遅延をノード性能モデルとして採用する。
マスターワーカーおよび完全分散型トポロジーの両方で適用し、勾配ベースの更新を用いた確率的凸最適化に焦点を当てる。
オンラインリグレットを用いた収束分析を行い、任意の計算時間分布下で固定ミニバッチ法に比べ $ olimits\mathcal{O}(\sqrt{n-1})$ の壁時刻的高速化を理論的に導出する。

実験結果

リサーチクエスチョン

RQ1ストラグルが存在する状況下で、ミニバッチサイズではなく計算時間を固定することで、壁時刻的な収束を高速化できるか？
RQ2ストラグルからの部分的作業を活用することで、実世界のクラウドおよびHPC環境で測定可能な性能向上が得られるか？
RQ3任意のミニバッチ法のオンラインリグレットとしての理論的収束速度は何か？また、固定ミニバッチベースラインと比較するとどうなるか？
RQ4ノード性能の変動が大きくなるに従い、AMBの壁時刻的高速化はどのようにスケーリングするか？
RQ5可変的なノードごとのデータ処理量に適応しながら、最適なリグレット性能（$\mathcal{O}(\sqrt{\bar{m}})$）を維持できるか？

主な発見

Amazon EC2 上の実験で、中程度のストラグル効果下においてAMBは固定ミニバッチ（FMB）に比べ最大1.5倍の高速な収束を達成した。
性能変動が著しい環境下では、AMBはFMBに比べ最大5倍の高速化を達成し、HPCプラットフォーム上では同じ誤差率に到達するのに2.45秒（FMB：12.7秒）を要した。
AMBにおける実測平均ミニバッチサイズは約504であり、FMBの基準値500に近く、ノード速度のばらつきにもかかわらずデータ利用のバランスが保たれていることを裏付けた。
AMBは最適なオンラインリグレット性能 $\mathcal{O}(\sqrt{\bar{m}})$ を達成し、勾配ベースのアルゴリズムにおける理論的下限に一致した。
理論的分析により、AMBは任意の計算時間分布下で固定ミニバッチ法に比べ $\mathcal{O}(\sqrt{n-1})$ の壁時刻的高速化を提供することが示された。
計算時間およびミニバッチサイズのヒストグラムから、高速なノードがより多くのサンプルを処理し、より多くのイテレーションを完了している一方で、遅延するノードはシステムのブロッキングを引き起こさずに部分的作業を貢献していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。