QUICK REVIEW

[論文レビュー] Adaptivity without Compromise: A Momentumized, Adaptive, Dual Averaged Gradient Method for Stochastic Optimization

Aaron Defazio, Samy Jelassi|arXiv (Cornell University)|Jan 26, 2021

Stochastic Gradient Optimization Techniques参考文献 27被引用数 39

ひとこと要約

MADGRAD は、AdaGradスタイルの適応性とモーメントを組み合わせた、モーメンタイズされた適応的デュアルアベレージング勾配法を導入し、凸問題に対する強力な性能と収束保証を達成するとともに、視覚領域とNLPタスク全体で競争力のある深層学習成果を提供します。

ABSTRACT

We introduce MADGRAD, a novel optimization method in the family of AdaGrad adaptive gradient methods. MADGRAD shows excellent performance on deep learning optimization problems from multiple fields, including classification and image-to-image tasks in vision, and recurrent and bidirectionally-masked models in natural language processing. For each of these tasks, MADGRAD matches or outperforms both SGD and ADAM in test set performance, even on problems for which adaptive methods normally perform poorly.

研究の動機と目的

深層学習における適応性と堅牢な一般化を両立させる最適化手法の動機付けと設計。
AdaGrad のデュアルアベレージングに基づき、モーメントと安定した適応更新のための立方根分母を取り入れて MADGRAD を開発する。
凸性の下での理論的収束保証を提供し、視覚タスクと NLP タスクで経験的性能を示す。

提案手法

一般的なミラー降下形式の代わりに AdaGrad のデュアルアベレージング形式を採用する。
初期点を中心とした近接関数（近接関数）を用いてニューラルネットワークの訓練における発散的挙動を回避する。
λ_k にスケーリングされた段階的で前方重み付け勾配列を導入し、有効ステップサイズを保持する。
モーメント概念に対応する移動平均/インライン平均化スキームによるモーメントの組み込み。
適応スケーリングに立方根分母を用いて適切な有効ステップサイズを維持し、安定性を向上させる。
凸性のもとで、主要な問題定数に比例してスケールする境界を持つ収束定理を提供する。

実験結果

リサーチクエスチョン

RQ1MADGRAD は収束保証を維持しつつ、標準的な深層学習ベンチマークで最先端または競争力のあるテスト性能を達成できるか。
RQ2デュアルアベレージング、モーメント、立方根適応スケーリングが確率的最適化における収束と一般化にどのように影響し相互作用するか。
RQ3MADGRAD と Adam、AdaGrad、モーメント付き SGD などの既存最適化手法との理論的・実証的トレードオフは何か。

主な発見

MADGRAD はさまざまな深層学習タスクで SGD および ADAM と比較して同等かそれ以上のテストセット性能を示す。
提案された更新に対して凸性の下で強い収束保証を得る。
モーメントを使用しない場合でも疎問題に対して MADGRAD は有効であり、いくつかの適応法の限界に対処する。
適応スケーリングにおける立方根分母は適切な有効ステップサイズを維持するのに役立ち、経験的な安定性を向上させる。
AMSGrad 風の Adam の境界と比較して、MADGRAD は彼らが示す問題のある依存関係や対数因子の一部を回避する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。