QUICK REVIEW

[論文レビュー] Communication-Efficient Distributed Optimization in Networks with Gradient Tracking and Variance Reduction

Boyue Li, Shicong Cen|arXiv (Cornell University)|Sep 12, 2019

Stochastic Gradient Optimization Techniques被引用数 51

ひとこと要約

本研究は分散最適化アルゴリズム（Network-DANE、Network-SVRG、Network-SARAH）を開発し、勾配追跡と分散変動削減を用いてネットワーク系での通信・計算効率の良い収束を達成します。二次・強凸損失に対する線形収束を証明し、実験による実務的な利得を示します。

ABSTRACT

There is growing interest in large-scale machine learning and optimization\nover decentralized networks, e.g. in the context of multi-agent learning and\nfederated learning. Due to the imminent need to alleviate the communication\nburden, the investigation of communication-efficient distributed optimization\nalgorithms - particularly for empirical risk minimization - has flourished in\nrecent years. A large fraction of these algorithms have been developed for the\nmaster/slave setting, relying on a central parameter server that can\ncommunicate with all agents. This paper focuses on distributed optimization\nover networks, or decentralized optimization, where each agent is only allowed\nto aggregate information from its neighbors. By properly adjusting the global\ngradient estimate via local averaging in conjunction with proper correction, we\ndevelop a communication-efficient approximate Newton-type method Network-DANE,\nwhich generalizes DANE to the decentralized scenarios. Our key ideas can be\napplied in a systematic manner to obtain decentralized versions of other\nmaster/slave distributed algorithms. A notable development is\nNetwork-SVRG/SARAH, which employs variance reduction to further accelerate\nlocal computation. We establish linear convergence of Network-DANE and\nNetwork-SVRG for strongly convex losses, and Network-SARAH for quadratic\nlosses, which shed light on the impacts of data homogeneity, network\nconnectivity, and local averaging upon the rate of convergence. We further\nextend Network-DANE to composite optimization by allowing a nonsmooth penalty\nterm. Numerical evidence is provided to demonstrate the appealing performance\nof our algorithms over competitive baselines, in terms of both communication\nand computation efficiency. Our work suggests that performing a certain amount\nof local communications and computations per iteration can substantially\nimprove the overall efficiency.\n

研究の動機と目的

ネットワーク上で中央サーバを介さずに実証的リスク最適化を効率的に動機付ける。
分散化されたDANEおよびネットワーク環境に適した分散バリアントの分散化を開発する。
データの均一性とネットワーク接続性が収束速度に及ぼす影響を定量化する収束保証を提供する。
組成的（ノン滑らか）最適化へネットワークを拡張し、実験的に性能を検証する。

提案手法

勾配追跡を用いた分散設定へDANEを適応させることでNetwork-DANEを導入する。
動的平均合意を使用して中央コーディネータなしに各エージェントでグローバル勾配を追跡する。
複数の局所平均化ラウンド（K）を組み込み、ネットワークの混合を改善し収束を加速する。
局所サブ問題のグローバル勾配をグラフ合意ベースの代理勾配に置き換える。
分散設定へ分散変動削減をもたらすNetwork-SVRGとNetwork-SARAHを開発する。
近位（ノン滑らか）複合最適化へNetwork-DANEを拡張し、収束を分析する。

実験結果

リサーチクエスチョン

RQ1勾配追跡と局所平均化を組み合わせると、通信効率の良い分散最適化で収束保証を達成できるか。
RQ2データの均一性（beta）とネットワーク接続性（alpha）はNetwork-DANE、Network-SVRG、Network-SARAHの収束速度にどう影響するか。
RQ3局所計算、通信ラウンド、および収束速度の間にあるトレードオフはこれらの分散アルゴリズムでどう表れるか。
RQ4分散化された近似ニュートン型手法において分散変動削減技術は線形収束を保持するか。

主な発見

Network-DANEは適切な設定下で二次損失に対して線形収束を達成し、データがより均質でネットワークがより結線されている場合に収束が改善される。
Network-SVRGとNetwork-SARAHは強凸（および二次）損失に対して線形収束を獲得し、追加の平均化により局所計算を削減できる。
勾配追跡を用いることで、データとトポロジーが好条件の下で分散最適化が中央サーバーのベースラインと同等またはそれを上回る通信効率を達成できる。
追加の局所平均化（複数の混合ラウンド）はネットワークの実効混合速度を改善し、全体の通信ラウンドを大幅に減らすことができる。
近位拡張により同じネットワーク効率的な枠組みでノン滑らかな複合最適化を実現できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。