QUICK REVIEW

[論文レビュー] Towards More Efficient Stochastic Decentralized Learning: Faster\n Convergence and Sparse Communication

Zebang Shen, Aryan Mokhtari|arXiv (Cornell University)|May 24, 2018

Stochastic Gradient Optimization Techniques被引用数 46

ひとこと要約

DSBAは幾何的収束を線形条件付けで達成し、疎な通信を可能にする分散確率的後向集約法を導入し、分散学習における悪条件付けと通信コストに対処する。AUC最大化にも拡張。

ABSTRACT

Recently, the decentralized optimization problem is attracting growing\nattention. Most existing methods are deterministic with high per-iteration cost\nand have a convergence rate quadratically depending on the problem condition\nnumber. Besides, the dense communication is necessary to ensure the convergence\neven if the dataset is sparse. In this paper, we generalize the decentralized\noptimization problem to a monotone operator root finding problem, and propose a\nstochastic algorithm named DSBA that (i) converges geometrically with a rate\nlinearly depending on the problem condition number, and (ii) can be implemented\nusing sparse communication only. Additionally, DSBA handles learning problems\nlike AUC-maximization which cannot be tackled efficiently in the decentralized\nsetting. Experiments on convex minimization and AUC-maximization validate the\nefficiency of our method.\n

研究の動機と目的

既存の決定論的および確率的な分散解法の非効率性に動機づけて対処する。
分散最適化を単調演算子の根を求める枠組みに一般化する。
単一データ点更新と疎なノード間通信を実現する線形収束を達成するDSBAを開発する。
l2-緩和されたAUC最大化などの問題へこの枠組みを拡張し、凸最小化およびAUCタスクでの実験によって検証する。

提案手法

局所的に強単調でリプシッツ連続な演算子の和の分散ルート探索問題を定式化する。
SAGA風の履歴項を用いた確率的有限和近似を用い、勾配分散を低減する（式19）。
解法ベースの固定点更新を導出する（式18-23）で、分散実装を許す。
近隣のコンセンサス（tilde-Wによる）と確率的後向ステップを組み合わせたDSBA更新則を開発する（式24-31）。
成分の疎性を活用して疎通信変法を導入し、交換情報を疎なデルタベクトルに限定する通信戦略を詳述する（節5.1）。
リャプノフ関数を用いた収束解析を提供し、ココエルシビリティと単調性の仮定の下で線形収束を示す（節6）。

実験結果

リサーチクエスチョン

RQ1有限和設定において、確率的分散法が条件付け依存の収束速度で線形収束を達成できるか？
RQ2DSBAは高速収束を保ちつつ疎（ρ疎）通信を実現できるか？
RQ3DSBAフレームワークはl2-relaxedなAUC最大化やその他の対対依存目的に効果的に拡張できるか？
RQ4凸問題およびAUCタスクにおける既存の分散解法と比較したときのDSBAの計算・通信のトレードオフは何か？

主な発見

手法	収束速度	1回の反復あたりのコスト	通信コスト
EXTRA	O((κ^2+κg) log(1/ε))	O(Δ(G)d)	O(Δ(G)d)
DLM	O((κ^2+κgκ) log(1/ε))	O(ρ q d+Δ(G)d)	O(Δ(G)d)
SSDA	O(sqrt(κκg) log(1/ε))	O(ρ q d+ q τ+Δ(G)d)	O(Δ(G)d)
DSA	O((κ^4 κg+κg^2+κ q) log(1/ε))	O(ρ d+Δ(G)d)	O(Δ(G)d)
DSBA	O((κ+κg+q) log(1/ε))	O(ρ d+τ+Δ(G)d)	O(Δ(G)d)
DSBA-s	O((κ+κg+q) log(1/ε))	O(ρ d+τ+N^2 d)	O(N ρ d)
Deterministic/Primal Methods (DGD)	Sublinear (varies by method)	Dense communication costs	Dense communication costs
EXTRA (Deterministic)	Linear convergence (improved over DGD)	Dense	Dense

DSBAは O((κ+κg+q) log(1/ε)) の線形収束を達成する。
1回の反復あたりの通信は疎性ρを利用する場合、O(ρ d) であり、密な方法の O(d) に対して疎通信である。
DSBAは確率的更新（1回の反復あたり1データ点）と単一回の通信により計算コストを低減する。
DSBA-sは勾配サンプリングの追加確率性を伴っても同じ収束速度を保持し、さらなる変種に適している。
本法はl2-relaxed AUC最大化に適用可能で、凸最小化およびAUC問題で検証され、計算および通信の改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。