QUICK REVIEW

[論文レビュー] Stochastic Dual Ascent for Solving Linear Systems

Robert M. Gower, Peter Richtárik|arXiv (Cornell University)|Dec 21, 2015

Stochastic Gradient Optimization Techniques参考文献 70被引用数 54

ひとこと要約

本稿では、線形方程式系を反復的に最大化する非強い凹型の双対二次問題として解くための新しい確率的アルゴリズムであるStochastic Dual Ascent (SDA) を提案する。SDA は最小限の仮定（方程式系の整合性のみ）の下で期待値における指数的収束を達成し、既知の手法（確率的 Kaczmarz 法や座標降下法）を統合・改善する。収束速度は、行列のランクが低下するほど向上する。

ABSTRACT

We develop a new randomized iterative algorithm---stochastic dual ascent (SDA)---for finding the projection of a given vector onto the solution space of a linear system. The method is dual in nature: with the dual being a non-strongly concave quadratic maximization problem without constraints. In each iteration of SDA, a dual variable is updated by a carefully chosen point in a subspace spanned by the columns of a random matrix drawn independently from a fixed distribution. The distribution plays the role of a parameter of the method. Our complexity results hold for a wide family of distributions of random matrices, which opens the possibility to fine-tune the stochasticity of the method to particular applications. We prove that primal iterates associated with the dual process converge to the projection exponentially fast in expectation, and give a formula and an insightful lower bound for the convergence rate. We also prove that the same rate applies to dual function values, primal function values and the duality gap. Unlike traditional iterative methods, SDA converges under no additional assumptions on the system (e.g., rank, diagonal dominance) beyond consistency. In fact, our lower bound improves as the rank of the system matrix drops. Many existing randomized methods for linear systems arise as special cases of SDA, including randomized Kaczmarz, randomized Newton, randomized coordinate descent, Gaussian descent, and their variants. In special cases where our method specializes to a known algorithm, we either recover the best known rates, or improve upon them. Finally, we show that the framework can be applied to the distributed average consensus problem to obtain an array of new algorithms. The randomized gossip algorithm arises as a special case.

研究の動機と目的

線形方程式系を解くための新しい確率的反復的手法を開発すること。この手法は双対空間で動作し、弱い仮定のもとで高速収束を達成する。
既存の確率的手法（確率的 Kaczmarz 法、座標降下法、ニュートン法など）を統一的に扱えるフレームワークを構築すること。
プライマル反復、双対関数値、双対ギャップ、および残差について、明示的な下界を伴うタイトな収束レートを確立すること。
分散型コセンサス問題にこのフレームワークを拡張し、確率的ガスケット（gossip）アルゴリズムを回復・一般化すること。
従来の直観とは逆に、システムのランクが低下するほど収束が改善することを示し、数値実験でこれを検証すること。

提案手法

SDA は、制約なしの非強い凹型二次双対関数を最大化することで双対空間で動作する。
各反復で、固定された分布 $ \rho $ から独立にランダム行列 $ S $ が選ばれ、双対反復は $ y^{k+1} = y^k + S(S^\top A B^{-1} A^\top S)^\top S^\top (b - A(c + B^{-1}A^\top y^k)) $ で更新される。
ステップサイズ $ \theta^k $ は、$ S $ が張る部分空間内で最適な進捗を達成するように、部分問題の最小ノルム解として選ばれる。
プライマル反復はアフィン変換 $ x^k = c + B^{-1}A^\top y^k $ により回復され、双対更新とプライマル解が結びつけられる。
収束は期待値の観点で分析され、収束レートは $ A^\top A $ の最小の正の固有値およびシステムのランクに依存する。
このフレームワークは既存のアルゴリズムを一般化することが示された：$ S $ をランダムな座標ベクトルとして選べば確率的座標降下法が得られ、$ S $ を単位行列のランダムな列部分行列として選べば確率的ニュートン法が得られ、$ S $ をガウス分布に従うベクトルとして選べばガウス降下法が得られる。

実験結果

リサーチクエスチョン

RQ1線形方程式系を解く既存の確率的反復手法を統一的に一般化するフレームワークを開発することは可能か？
RQ2双対目的関数が強く凹でない場合、双対ベースの確率的手法に対してどのような収束保証を立てられるか？
RQ3この手法の収束速度は、システム行列のランクにどのように依存するか？ランクが低下するほど改善される可能性はあるか？
RQ4このフレームワークは、平均コアンセンサスのような分散型最適化問題に拡張可能か？また、確率的ガスケットアルゴリズムは特殊ケースとして回復されるか？
RQ5このようなクラスの確率的双対手法における収束速度のタイトな下界は何か？

主な発見

線形方程式系の整合性という唯一の仮定のもとで、プライマル反復、双対関数値、プライマル関数値、双対ギャップ、および残差について、SDA は期待値において指数的収束を達成する。
収束レートの下界は $ 1 - 1/\text{Rank}(A) $ であり、これは $ A $ のランクが低下するほど改善される。これは直観に反するが、実験的に裏付けられている。
特殊化することで、既知のいくつかのアルゴリズムの最良の既知の収束レートを達成する。確率的 Kaczmarz 法および確率的座標降下法を再現し、一部の状況でそれらのレートを改善する。
確率的 Kaczmarz 法に関して、理論はランク不足のシステムに対しても収束を予測し、数値実験でも確認されている。ただし、$ A $ のどの行にもゼロの行が含まれないことが条件である。
数値実験では、実効収束が予測レート $ \rho = 1 - \frac{\tilde{\nu}_{\text{min}}(A^\top A)}{\|A\|_F^2} $ に非常に近づき、特に低ランクシステムでは顕著である。
フレームワークは分散型コアンセンサスに一般化可能である。確率的ガスケットアルゴリズムは特殊ケースとして出現し、その複雑さはエッジ数およびグラフラプラシアンの最小非ゼロ固有値の逆数に比例することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。