QUICK REVIEW

[論文レビュー] Feedforward Sequential Memory Networks: A New Structure to Learn Long-term Dependency

Shiliang Zhang, Cong Liu|arXiv (Cornell University)|Dec 28, 2015

Neural Networks and Applications参考文献 38被引用数 68

ひとこと要約

本論文は、固定サイズの表現に長期間の文脈情報を効率的に符号化できる、可学習なメモリブロックを備えた前向き型ニューラルネットワークであるフィードフォワード順序メモリネットワーク（FSMN）を提案する。このメモリブロックはタップド・ディレイライン構造を用い、再帰的フィードバックなしで長期依存関係を効率的にモデル化可能である。FSMNは、語りかけ認識および言語モデル作成のタスクにおいてRNNやLSTMを上回り、収束が速く、ベンチマークタスクで最先端の結果を達成している。

ABSTRACT

In this paper, we propose a novel neural network structure, namely \emph{feedforward sequential memory networks (FSMN)}, to model long-term dependency in time series without using recurrent feedback. The proposed FSMN is a standard fully-connected feedforward neural network equipped with some learnable memory blocks in its hidden layers. The memory blocks use a tapped-delay line structure to encode the long context information into a fixed-size representation as short-term memory mechanism. We have evaluated the proposed FSMNs in several standard benchmark tasks, including speech recognition and language modelling. Experimental results have shown FSMNs significantly outperform the conventional recurrent neural networks (RNN), including LSTMs, in modeling sequential signals like speech or language. Moreover, FSMNs can be learned much more reliably and faster than RNNs or LSTMs due to the inherent non-recurrent model structure.

研究の動機と目的

勾配消失／爆発の問題と高い計算コストにより、再帰的ニューラルネットワーク（RNN）が長期依存関係を学習するのを制限する点を是正すること。
再帰的フィードバックなしで、長期間の文脈情報を効率的に捉えることができる前向き型アーキテクチャの開発。
RNNやLSTMと比較して、学習速度と信頼性を向上させつつ、順序モデルタスクにおける性能を維持または上回ること。
タップド・ディレイライン構造による固定サイズのメモリ表現が、順序データのモデル化にどの程度有効であるかを検討すること。

提案手法

隠れ層に可学習なメモリブロックを備えた完全結合型前向き型ネットワークであるフィードフォワード順序メモリネットワーク（FSMN）を導入する。
長期間の文脈を固定サイズの表現に符号化するために、メモリブロックでタップド・ディレイライン構造を採用し、短期記憶に類似した挙動を再現する。
時間的依存関係を順序入力の間でモデル化するために、可学習係数を有する有限インパルス応答（FIR）フィルタを用いる。
スカラーフォームとベクトル化フォームの両方のFSMNを適用：スカラーフォームは各ブロックごとに1つのフィルタを使用するが、ベクトル化フォームは入力次元ごとに別々のフィルタを学習する。
バックプロパゲーション・スルー・タイム（BPTT）を用いない標準的なバックプロパゲーションによる学習を実施し、より高速で安定した学習を実現する。
語りかけ認識および言語モデル作成タスクにおける標準的な前向き型ネットワークにFSMNブロックを統合する。

実験結果

リサーチクエスチョン

RQ1可学習なメモリブロックを備えた前向き型ニューラルネットワークは、順序データの長期依存関係を効果的にモデル化できるか？
RQ2語りかけおよび言語タスクにおける長期依存関係のモデル化において、FSMNはRNNやLSTMと比較してどの程度の性能を示すか？
RQ3FSMNでは再帰的フィードバックが存在しないため、RNNやLSTMと比較してより高速で安定した学習が達成できるか？
RQ4スカラーフォームとベクトル化フォームのFSMNは、異なるタスクにおいて性能や学習されたフィルタの挙動にどのような差を示すか？
RQ5学習されたFIRフィルタ係数は、自然言語や音声のパターン（例：近接する文脈の重要性が高いため）をどの程度反映しているか？

主な発見

英語のwiki9言語モデルタスクにおいて、FSMNは困惑度90を達成し、RNN-LM（112）およびFOFE-LM（104）を顕著に上回った。
FSMNベースの言語モデルは約5エポックで収束したが、RNN-LMは15エポック以上を要したため、はるかに高速な学習が実現した。
PTB言語モデルタスクにおいて、FSMNはRNNやLSTMと比較して、より高速な収束と改善された安定性を示し、最先端の性能を達成した。
FSMNにおける学習されたFIRフィルタ係数は、自然言語の性質を反映しており、近接する文脈に高い重みを割り当て、遠く離れた文脈の重みを段階的に減少させている。
スカラーフォームとベクトル化フォームのFSMNは、言語モデルタスクにおいて類似した性能を示した。これは、次元間での学習されたフィルタが非常に類似しているためであり、音声認識とは異なり、ベクトル化フォームがスカラーフォームを上回る。
提案されたFSMN構造は、再帰的フィードバックなしで効果的な長期間文脈符号化を可能にし、RNNやLSTMの信頼性が高く効率的な代替手段である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。