QUICK REVIEW

[論文レビュー] Scaling Memory-Augmented Neural Networks with Sparse Reads and Writes

Jack W. Rae, Jonathan J. Hunt|arXiv (Cornell University)|Oct 27, 2016

Topic Modeling参考文献 19被引用数 58

ひとこと要約

この論文は、スパースリードおよびスパースライトを用いることで、各メモリ操作において最適なO(1)の空間的・時間的計算量を達成する微分可能メモリ拡張ニューラルネットワーク、Sparse Access Memory (SAM) を提案する。SAMは100,000ステップのタスクにスケーリング可能であり、密度型モデルと比較して1,000倍速く学習が可能で、メモリ使用量は3,000分の1にまで削減される。また、合成タスクおよびOmniglotのワンショット学習を含む実世界のタスクにおいて、データ効率と性能を維持する。

ABSTRACT

Neural networks augmented with external memory have the ability to learn algorithmic solutions to complex tasks. These models appear promising for applications such as language modeling and machine translation. However, they scale poorly in both space and time as the amount of memory grows --- limiting their applicability to real-world domains. Here, we present an end-to-end differentiable memory access scheme, which we call Sparse Access Memory (SAM), that retains the representational power of the original approaches whilst training efficiently with very large memories. We show that SAM achieves asymptotic lower bounds in space and time complexity, and find that an implementation runs $1,\!000 imes$ faster and with $3,\!000 imes$ less physical memory than non-sparse models. SAM learns with comparable data efficiency to existing models on a range of synthetic tasks and one-shot Omniglot character recognition, and can scale to tasks requiring $100,\!000$s of time steps and memories. As well, we show how our approach can be adapted for models that maintain temporal associations between memories, as with the recently introduced Differentiable Neural Computer.

研究の動機と目的

メモリサイズの増加に伴い空間的・時間的スケーラビリティが著しく劣化するメモリ拡張ニューラルネットワーク（MANNs）の問題を解決すること。
Neural Turing Machines（NTM）やメモリネットワークなどのモデルで見られる、滑らかなリード/ライト操作に伴う線形計算オーバーヘッドを克服すること。
非常に大きな外部メモリを搭載したMANNの効率的学習を可能にし、実世界の応用に実用的であることを実現すること。
大幅なメモリおよび時間コスト削減を実現しながら、エンドツーエンドの微分可能でデータ効率の高い性能を維持すること。
100,000ステップの長時間シーケンスや64,000個のメモリスロットといった、長大なシーケンスおよび大容量メモリへのスケーラビリティを実証すること。

提案手法

各タイムステップでメモリの小さな動的サブセットにのみメモリの変更を制限するスパースアクセス機構を提案する。
リード操作におけるコンテンツベースアドレッシングを高速化するために、特にk-dツリーおよび局所性に敏感なハッシュ（LSH）といった効率的なデータ構造を用いる。
バックプロパゲーション中に完全なメモリの複製を回避するため、スパースな書き込み操作を微分可能に実装する。
バックプロパゲーション・スル・タイム（BPTT）によるエンドツーエンド学習が可能となるように、スパースアクセス方式を微分可能なコントローラ（例：LSTM）に統合する。
Omniglotワンショット分類タスクを長時間シーケンス長にスケーリングするためにカリキュラム学習を適用する。
Differentiable Neural Computer（DNC）にこのアプローチを適応し、効率性と性能が向上したスパースDNC（SDNC）を構築する。

実験結果

リサーチクエスチョン

RQ1非常に大きなメモリサイズにスケーリングした場合でも、メモリ拡張ニューラルネットワークがデータ効率と性能を維持できるか？
RQ2スパースメモリアクセス操作が微分可能なフレームワーク内で各操作について最適なO(1)の時間的・空間的計算量を達成できるか？
RQ3k-dツリーおよびLSHといった効率的なデータ構造の使用により、メモリサイズに比例する線形計算量を下回る前向きパスの実行時間が達成できるか？
RQ4スパースアクセスにより、100,000ステップの長時間シーケンスに対する最小限のメモリおよび時間的オーバーヘッドで学習が可能になるか？
RQ5スパースアクセス方式は、DNCのような他の微分可能なメモリアーキテクチャにも一般化可能か？

主な発見

64,000個のメモリスロットにスケーリングした場合、SAMは密度型モデルと比較して最大3,000倍のメモリ使用量削減と最大1,000倍の学習時間短縮を達成する。
SAMは各メモリ操作について漸近的にO(1)の時間的・空間的計算量を達成し、計算量の観点から最適である。
Omniglotワンショット分類タスクにおいて、SAMは100文字の分類で0.2未満の誤差を達成し、密度型モデル（約0.4の誤差）を上回り、優れた一般化性能を示す。
カリキュラム学習を用いて長時間シーケンスで学習しても、既存のMANNと同等のデータ効率を維持する。
2,000個のメモリスロットにおいて、スパースDNC（SDNC）は密度型DNCと比較して400倍以上高速であり、教師付きメモリアクセスなしでBabiタスクで報告された最高性能を達成する。
130ステップ程度のシーケンスでの学習でさえ、5,000ステップまでのシーケンスに一般化しやすく、汎用的な表現の学習が堅実に行われていることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。