[論文レビュー] A Randomized Block Proximal Variable Sample-size Stochastic Gradient Method for Composite Nonconvex Stochastic Optimization
本稿は、勾配のバッチサイズを増加させながらブロックを逐次更新する、合成非凸確率的最適化のための確率的ブロックプロキシマル可変サンプルサイズ勾配(VSSG)法を提案する。勾配マッピングに関して$Ó(1/K)$の収束が確立され、$É$-停留立点に到達するための反復回数は$Ó(1/ϵ)$、オракル複雑度は$Ó(1/ϵ^2)$となる。また、$µ$-プロキシマルポリャク-イェオジャシェフ条件のもとでは幾何的収束を示す。
This paper considers the minimization of a sum of an expectation-valued smooth nonconvex function and a nonsmooth block-separable convex regularizer. By combining a randomized block-coordinate descent method with a proximal variable sample-size stochastic gradient (VSSG) method, we propose a randomized block proximal VSSG algorithm. In each iteration, a single block is randomly chosen to updates its estimates by {a VSSG scheme} with an increasing batch of sampled gradients, while the remaining blocks are kept invariant. By appropriately chosen batch sizes, we prove that every limit point for almost every sample path is a stationary point when blocks are chosen either randomly or cyclically. We further show that the ergodic mean-squared error of the gradient mapping {diminishes at the rate of $\mathcal{O}(1/K) $ where $K$denotes the iteration index} and establish that the iteration and oracle complexity to obtain an $\epsilon$-stationary point are $\mathcal{O}(1/\epsilon )$ and $\mathcal{O}(1/\epsilon^2)$, respectively. Furthermore, under a $ {\mu}$-proximal Polyak-{\L}ojasiewicz condition with the batch size increasing at a suitable geometric rate, we prove that the suboptimality diminishes at a {\em geometric} rate, the {\em optimal} deterministic rate. In addition, if $L_{ m ave}$ denotes the average of block-specific Lipschitz constants, the iteration and oracle complexity to obtain an $\epsilon$-optimal solution are $\mathcal{O}( {(L_{ m ave}/\mu)}\ln(1/\epsilon))$ and $\mathcal{O}\left( (1/\epsilon)^{1+c} ight)$, respectively, {matching} the deterministic result. When $n=1$, we obtainthe {\em optimal} ed{oracle complexity bound} $\mathcal{O}(1/\epsilon) $ while $c>0$ when $n\geq 2$ represents the positive cost of multiple blocks. Finally, preliminary numerical experiments support our theoretical findings.
研究の動機と目的
- 滑らかで非凸な期待値関数とブロック分離可能な凸正則化子を含む合成非凸確率的最適化問題に対処すること。
- 可変サンプルサイズとブロック単位の更新を扱える最適化の確率的1次順序法を構築すること。
- 確率的または順循環的ブロック選択のもとで、極限点の収束保証と平均二乗誤差の減少を確立すること。
- 異なる条件下での$É$-停留立点および$É$-最適解に到達するための反復およびオラクル複雑度を分析すること。
提案手法
- 確率的ブロック座標降下フレームワークと、可変サンプルサイズ勾配(VSSG)スキームを組み合わせる。
- 各反復で、1つのブロックを確率的に選択し、増加するバッチサイズのサンプル勾配を用いたVSSGステップで更新する。
- 各更新では他のブロックは固定され、分散が徐々に減少するブロック単位の最適化が可能になる。
- バッチサイズは幾何的に増加させ、$µ$-プロキシマルポリャク-イェオジャシェフ条件のもとで収束を保証し、最適レートを達成する。
- 非滑らか凸正則化子を処理するためにプロキシマル作用素を用い、ブロック単位の更新が計算的に実行可能であることを保証する。
- 収束は勾配マッピングとエルゴディック平均を用いて分析され、平均二乗誤差および部分最適性に関する理論的バウンダが導出される。
実験結果
リサーチクエスチョン
- RQ1確率的ブロックプロキシマルVSSG法は、勾配マッピングのエルゴディック平均二乗誤差に関して$Ó(1/K)$の収束を達成できるか?
- RQ2本手法が$É$-停留立点に到達するための反復複雑度とオラクル複雑度は何か?
- RQ3$µ$-プロキシマルポリャク-イェオジャシェフ条件のもとで幾何的収束が発生するか? もし発生するならば、そのレートは何か?
- RQ4ブロック数$n \geq 2$に伴って複雑度はどのようにスケーリングされるか? また、複数ブロックのコストは何か?
- RQ5$n=1$のとき、オラクル複雑度は最適な$Ó(1/\epsilon)$バウンダに達するか? $n\geq 2$のときにはどのようにスケーリングされるか?
主な発見
- 勾配マッピングのエルゴディック平均二乗誤差は、反復インデックス$K$に関して$Ó(1/K)$のレートで減少する。
- $É$-停留立点に到達するための反復複雑度は$Ó(1/\epsilon)$、オラクル複雑度は$Ó(1/\epsilon^2)$である。
- $µ$-プロキシマルポリャク-イェオジャシェフ条件のもとでバッチサイズを幾何的に増加させた場合、部分最適性は幾何的レートで減少し、最適な決定的レートと一致する。
- $n=1$のとき、オラクル複雑度は最適な$Ó(1/\epsilon)$バウンダに達するが、$n\geq 2$のとき$c>0$は複数ブロックのコストを示す。
- $É$-最適解のための反復複雑度は$Ó\left(\frac{L_{\text{m ave}}}{\mu}\ln(1/\epsilon)\right)$、オラクル複雑度は$Ó\left(\left(\frac{1}{\epsilon}\right)^{1+c}\right)$である。これは決定的結果と一致する。
- 予備的な数値実験により、理論的収束レートおよび複雑度バウンダが支持される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。