QUICK REVIEW

[論文レビュー] Fast Parametric Learning with Activation Memorization

Jack W. Rae, Chris Dyer|arXiv (Cornell University)|Mar 27, 2018

Multimodal Machine Learning Applications参考文献 34被引用数 22

ひとこと要約

本稿では、最近のネットワーク活性化状態をHebb則に基づく更新ルールを用いてsoftmax層の重みに直接記憶することで、希少クラスの学習を高速化する手法であるHebbian Softmaxを提案する。この手法は、WikiText-103で29.2という最先端のパープレキシティを達成し、画像分類においても新たなクラスの結合を高速化するが、追加の計算コストやメモリオーヘッドは一切不要である。

ABSTRACT

Neural networks trained with backpropagation often struggle to identify classes that have been observed a small number of times. In applications where most class labels are rare, such as language modelling, this can become a performance bottleneck. One potential remedy is to augment the network with a fast-learning non-parametric model which stores recent activations and class labels into an external memory. We explore a simplified architecture where we treat a subset of the model parameters as fast memory stores. This can help retain information over longer time intervals than a traditional memory, and does not require additional space or compute. In the case of image classification, we display faster binding of novel classes on an Omniglot image curriculum task. We also show improved performance for word-based language models on news reports (GigaWord), books (Project Gutenberg) and Wikipedia articles (WikiText-103) --- the latter achieving a state-of-the-art perplexity of 29.2.

研究の動機と目的

低リソースまたは長尾分布の状況において、ニューラルネットワーク分類器における希少クラスの学習が遅いという課題に対処すること。
希少クラスのパラメータを正確に推定するために多数の例が必要となる、標準的な誤差逆伝播法の限界を克服すること。
モデルの複雑さを増さずに、希少または新たに導入されたクラスのデータ効率と初期表現の質を向上させること。
外部メモリやメタラーニングの代替として、シンプルでスケーラブルな手法を検討し、新規クラスへの迅速な適応を実現すること。
計算コストを最小限に抑えつつ、視覚および言語モデリングの両タスクで有効性を実証すること。

提案手法

標準的な勾配降下法と、softmax層の重みに対するHebb則に基づく更新ルールを組み合わせたハイブリッド学習ルールを導入する。
Hebb則の更新を適用：クラスyが観測され、隠れ層活性化h_tが得られた場合、θ[y] ← θ[y] + h_t を実行する。特に希少クラスに対して有効である。
クラスが閾値回未満でしか観測されていない間はHebb則を適用し、その後は勾配降下法に切り替える。
最近の活性化状態を直接softmax重みパラメータに格納・蓄積することで、高速かつ圧縮されたメモリとして機能させる。
更新が既存のパラメータに統合されているため、追加のメモリや計算コストを回避し、モデルの効率性を維持する。
Omniglot（画像分類）およびGigaWord, Project Gutenberg, WikiText-103（言語モデリング）の各タスクに、最小限のアーキテクチャ変更で適用する。

実験結果

リサーチクエスチョン

RQ1softmax層に最近の活性化状態を直接記憶することで、ニューラルネットワークにおける希少クラスの学習速度が向上するか？
RQ2少サンプル学習の状況において、提案手法のHebbian Softmaxは、標準的な誤差逆伝播法やRMSPropのような適応的最適化手法と比較してどのように性能を発揮するか？
RQ3特に頻度の低い語のモデリングに寄与するか、大規模で長尾分布を示す語彙を持つ言語モデリングタスクで性能が向上するか？
RQ4追加の推論または学習用計算コストや外部メモリ部品を増やさずに、性能向上を維持できるか？
RQ5従来のメモリ機構と比較して、活性化状態の記憶が、長時間にわたり希少クラスの表現をどれほど保持できるか？

主な発見

Hebbian Softmaxは、言語モデリングベンチマークであるWikiText-103で29.2という最先端のパープレキシティを達成し、強力なLSTMベースラインを上回った。
Omniglot画像分類タスクにおいて、適応的学習率を用いたRMSPropと比較して、新規クラスの結合がより迅速に行われた。
パープレキシティ分析から、頻度が低い語のグループにおいて顕著な改善が確認され、希少語や未観測語のモデリングが向上した。
GigaWord（ニュース）、Project Gutenberg（書籍）、WikiText-103（Wikipedia）といった多様なコーパスにおいても性能向上が見られ、広範な適用可能性を示した。
活性化状態の記憶が既存のsoftmaxパラメータ内で直接行われるため、追加のメモリや計算コストなしに、これらの成果を達成した。
外部メモリシステムとは異なり、より頻度の高いクラスに置き換えられることなく、希少クラスの表現が長時間にわたり維持されるため、長期的な表現の保持が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。