QUICK REVIEW

[論文レビュー] Parallel SGD: When does averaging help?

Jian Zhang, Christopher De|arXiv (Cornell University)|Jun 23, 2016

Stochastic Gradient Optimization Techniques参考文献 2被引用数 78

ひとこと要約

本稿は、並列確率的勾配降下法（SGD）における周期的モデル平均化を調査し、勾配の分散が最適解から離れるほど高い場合、凸問題では頻繁な平均化が分散を低減し収束を加速することを示している。非凸設定では、発散する局所最小値の過早な平均化を回避することで、劣悪な解を防ぐ。最適な平均化頻度は勾配分散の包絡線と曲率に依存し、MNIST や E2006 を含む合成および実データセットを用いた実験で実証された。

ABSTRACT

Consider a number of workers running SGD independently on the same pool of data and averaging the models every once in a while -- a common but not well understood practice. We study model averaging as a variance-reducing mechanism and describe two ways in which the frequency of averaging affects convergence. For convex objectives, we show the benefit of frequent averaging depends on the gradient variance envelope. For non-convex objectives, we illustrate that this benefit depends on the presence of multiple globally optimal points. We complement our findings with multicore experiments on both synthetic and real data.

研究の動機と目的

周期的モデル平均化が並列SGDの収束をどのように改善するかの条件を理解すること。
定期的間隔で複数の並列SGDワーカーのモデルを平均化するという広く用いられている手法について、理論的裏付けが不足している問題を解決すること。
特に非凸設定において、より頻繁な平均化が常により速い収束をもたらすかどうかを調査すること。
周期的平均化の実証的利点を、特に分散包絡線と曲率の観点から説明するための勾配分散モデルを構築すること。
マルチコア環境での実験を通じて理論的知見を実データおよび合成データ（ロジスティック回帰およびMNISTのCNNを含む）で検証すること。

提案手法

勾配分散の包絡線と曲率によって定義される新しい勾配分散モデルを提案し、β² / σ² で表されるρにパrameter化する。ここでβ²は曲率を、σ²は最適解における分散を表す。
凸目的関数の分析を通じて、ワーカーが平均モデルからどれだけ逸脱するかの境界を導出し、最適解から離れるほど分散が高い場合、頻繁な平均化がノイズボールのサイズを小さくすることを示す。
非凸問題をモデル化し、ワンショット平均化が異なる局所最小値からのモデルを組み合わせることで、より悪い解が得られることを示す。一方、周期的平均化はワーカーを同じ吸引域に保つ。
M個のワーカーを用いたマルチコアシステムに周期的平均化を実装し、各フェーズは平均化までのKステップからなる。
最適解を通り、ランダムな直線に沿って勾配分散を測定することで、β²とσ²を推定するためのラインサーチ法を用い、ρの経験的推定を可能にする。
ロジスティック回帰およびMNISTのCNNを含む、複数のデータセットとモデルにおいて、ワンショット平均化、周期的平均化（128ステップおよび1024ステップごと）、単一ワーカーSGDを比較する。

実験結果

リサーチクエスチョン

RQ1凸並列SGDにおいて、ワンショット平均化と比較して周期的平均化が収束を改善する条件は何か？
RQ2勾配分散の包絡線が凸最適化における周期的平均化の有効性にどのように影響するか？
RQ3非凸設定でワンショット平均化がなぜ頻繁に失敗するのか、そして周期的平均化がこの問題をどのように緩和するのか？
RQ4目的関数の曲率（β²で捉えられる）が、頻繁な平均化の利点に与える影響はどの程度か？
RQ5ρ = β² / σ² に基づく理論的モデルは、異なるデータセットおよびモデルにおける周期的平均化の経験的性能向上を予測できるか？

主な発見

凸問題では、最適解から離れるほど勾配分散が高い場合、ρ = β² / σ² が大きいほど、周期的平均化が収束を速める。
スパースなE2006データセットにおけるロジスティック回帰では、128ステップごとの周期的平均化がワンショット平均化を上回り、ρ値が大きいほど顕著な高速化が観察された。
ρが小さいため、密度の高いYearPredictionデータでは、周期的平均化とワンショット平均化の性能差は最小限に抑えられ、モデルの予測を裏付けた。
非凸設定では、ワンショット平均化は単一ワーカーの結果よりも性能を劣化させ、最悪の個別ワーカーでさえも劣る訓練損失とテスト誤差を示すことが多かった。
MNIST用CNNにおいて128ステップごとの周期的平均化は、収束性と一般化性能を向上させ、ワンショット平均化および最良個別ワーカーを上回った。
経験的結果は理論モデルを裏付けた：周期的平均化による高速化は、異なるデータセットおよびモデルにおいて測定されたρ値と強く相関していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。