QUICK REVIEW

[論文レビュー] Why are Adaptive Methods Good for Attention Models?

Jingzhao Zhang, Sai Praneeth Karimireddy|arXiv (Cornell University)|Dec 6, 2019

Stochastic Gradient Optimization Techniques被引用数 39

ひとこと要約

この論文は、重尾の勾配ノイズがSGDを適応法より劣らせる可能性を示し、クリッピングベースの分析とACClipを導入してBERTのような注意モデルの最適化を改善する。

ABSTRACT

While stochastic gradient descent (SGD) is still the \emph{de facto} algorithm in deep learning, adaptive methods like Clipped SGD/Adam have been observed to outperform SGD across important tasks, such as attention models. The settings under which SGD performs poorly in comparison to adaptive methods are not well understood yet. In this paper, we provide empirical and theoretical evidence that a heavy-tailed distribution of the noise in stochastic gradients is one cause of SGD's poor performance. We provide the first tight upper and lower convergence bounds for adaptive gradient methods under heavy-tailed noise. Further, we demonstrate how gradient clipping plays a key role in addressing heavy-tailed gradient noise. Subsequently, we show how clipping can be applied in practice by developing an \emph{adaptive} coordinate-wise clipping algorithm (ACClip) and demonstrate its superior performance on BERT pretraining and finetuning tasks.

研究の動機と目的

注意モデルの学習（例：BERT）において、SGD が適応的手法より劣る理由を調査する。
関連タスクにおける勾配ノイズ分布（重尾性）の特徴を整理する。
重尾ノイズ下で最適化を安定化させるクリッピングベースのアルゴリズムを開発・分析する。
改善されたBERT事前学習・ファインチューニングのための適応座標ごとクリッピング法（ACClip）を提案・検証する。

提案手法

ImageNet (ResNet) と BERT の学習における勾配ノイズ分布を実証的に分析し、重尾挙動を特定する。
有界αモーメント（α∈(1,2]）を用いた、重尾ノイズ下での適応勾配法の理論的収束界を提示する。
重尾ノイズ下で最適な収束速率を得るための勾配クリッピング（GClip）の導入と分析。
次元依存性を排除する座標ごとクリッピング（CClip）の拡張と、オンラインモーメント推定を用いた適応座標ごとクリッピング（ACClip）の開発。
BERTの事前学習とSQuAD v1.1のファインチューニングにおけるACClipの実証評価。Adamより改善を示す。

実験結果

リサーチクエスチョン

RQ1重尾の勾配ノイズは、注意モデルの学習におけるSGDと適応法の相対的な性能ギャップを説明できるか。
RQ2勾配クリッピングは収束を回復し、重尾ノイズ下で最適な速度を達成できるか。
RQ3現実的で高次元なノイズの下で、座標ごとのクリッピングはグローバルクリッピングより優れているか。
RQ4適応座標ごとクリッピングアルゴリズム（ACClip）は、BERTの事前学習とファインチューニングタスクでAdamより優れているか。

主な発見

BERTの事前学習における勾配ノイズは重尾性を持つ一方、ImageNet/ResNetでは分布が適度に集中している。
クリップ付き勾配法（GClip）は重尾ノイズ下で最適な収束速率を達成し、学習を安定化させる。
座標ごとクリッピング（CClip）は次元依存性を排除し、グローバルクリッピングよりも優れることがある。
適応クリッピング手法（ACClip）は、オンラインモーメント推定を用いて、BERTの事前学習とSQuAD v1.1 のファインチューニングでAdamを上回る。
ACClipは、BERT Base 6/12 層および BERT Large 24 層でAdamより事前学習損失を低く抑え、マスク化言語モデルの精度を向上させるとともに、SQuAD EM/F1 スコアを改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。