QUICK REVIEW

[論文レビュー] Adaptively Truncating Backpropagation Through Time to Control Gradient Bias

Christopher Aicher, Nicholas J. Foti|arXiv (Cornell University)|May 17, 2019

Sparse and Compressive Sensing Techniques参考文献 22被引用数 21

ひとこと要約

この論文は、再帰的ニューラルネットワークにおける時間による勾配誤差逆伝播法（TBPTT）のための適応的切断スキームを提案する。固定されたラグではなく、推定された勾配バイアスに基づいて、切断長を動的に調整する。勾配の期待値における幾何級数的減衰を仮定することで、相対バイアスを制御し、SGDの非漸近的収束を保証する。言語モデリングにおいて、固定KのTBPTTよりも優れた性能を示しながらも、バイアス制御を維持する。

ABSTRACT

Truncated backpropagation through time (TBPTT) is a popular method for learning in recurrent neural networks (RNNs) that saves computation and memory at the cost of bias by truncating backpropagation after a fixed number of lags. In practice, choosing the optimal truncation length is difficult: TBPTT will not converge if the truncation length is too small, or will converge slowly if it is too large. We propose an adaptive TBPTT scheme that converts the problem from choosing a temporal lag to one of choosing a tolerable amount of gradient bias. For many realistic RNNs, the TBPTT gradients decay geometrically in expectation for large lags; under this condition, we can control the bias by varying the truncation length adaptively. For RNNs with smooth activation functions, we prove that this bias controls the convergence rate of SGD with biased gradients for our non-convex loss. Using this theory, we develop a practical method for adaptively estimating the truncation length during training. We evaluate our adaptive TBPTT method on synthetic data and language modeling tasks and find that our adaptive TBPTT ameliorates the computational pitfalls of fixed TBPTT.

研究の動機と目的

TBPTTにおける最適な固定切断長の選択という課題に取り組む。これは、勾配バイアスのため、収束が遅いか、収束しない原因となることがある。
TBPTTにおける勾配バイアスが幾何的に減少する条件を形式化し、適応的切断によるバイアス制御を可能にする。
訓練中にリアルタイムで勾配バイアスを推定し、それに応じて切断長を調整する実用的なアルゴリズムを開発する。
相対バイアスが有界な条件下で、バイアス付き勾配を使用するSGDの非漸近的収束レートを証明する。
合成タスクおよび言語モデリングベンチマークでこの手法を実証的に検証し、バイアス制御を伴う競争力のある性能を示す。

提案手法

勾配ノルムが特定のラグを超えて期待値において幾何級数的に減少する理論的枠組みを提案し、バイアス制御を可能にする。
バイアス付き勾配と正確な勾配の比を測定する相対バイアスδを導入し、δ < 1 が収束を保証する。
訓練中にミニバッチ勾配を用いて相対バイアスδの推定器を開発し、リアルタイムでの適応を可能にする。
推定されたδとユーザーが定めた目標バイアスレベルに基づいて切断長Kを調整する適応的TBPTTアルゴリズム（アルゴリズム1）を設計する。
高次元の隠れ状態においてバイアス推定を改善するため、マハラノビス型ノルムまたは重み付きノルムを用いるが、これは今後の課題として残す。
合成コピータスクと実世界の言語モデリング（PTB、Wiki2）にこの手法を適用し、固定ハイパーパrameterを用いたLSTMを用いる。

実験結果

リサーチクエスチョン

RQ1推定バイアスに基づいて切断長を適応的に調整することで、固定ラグを使用しないTBPTTにおける勾配バイアスを制御できるか？
RQ2どのような条件下で、勾配ノルムが期待値において幾何的に減少し、TBPTTにおけるバイアス制御が可能になるか？
RQ3相対バイアス推定に基づく適応的切断は、RNN学習における固定切断よりも速い収束とより優れた性能をもたらすか？
RQ4相対バイアスが有界な条件下で、バイアス付き勾配を使用するSGDに対して非漸近的収束保証を確立できるか？
RQ5実世界の言語モデリングタスクにおいて、最適な固定KのTBPTTと比較して、この手法は実際の性能をどのように発揮するか？

主な発見

提案された適応的TBPTT手法は、勾配バイアスを効果的に制御するが、固定KのTBPTTは訓練全体を通してバイアス制御を維持できない。
合成コピータスクおよび言語モデリング（PTBおよびWiki2）の両方において、適応的手法は最良の固定KのTBPTT設定と同等またはそれ以上のテストパープレキシティを達成する。
推定された切断長Kは訓練中に急速に定数値に安定し、効果的な適応が行われていることを示している。
実験的結果は、個々の勾配がノイズを含んでも、勾配ノルムが期待値において幾何的に減少すること（仮定通り）を確認している。
高次元設定では、ユークリッドノルムが過剰に保守的なバイアス推定をもたらす可能性がある。今後の研究では、マハラノビスのような次元に重み付けされたノルムを検討すべきである。
理論的分析により、δ < 1 の条件下で、バイアス付き勾配を使用するSGDは、バイアスなしSGDに対して (1−δ)−1 のレートで収束することが示され、収束保証が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。