QUICK REVIEW

[論文レビュー] Quasi-Recurrent Neural Networks

James Bradbury, Stephen Merity|arXiv (Cornell University)|Nov 5, 2016

Topic Modeling参考文献 27被引用数 326

ひとこと要約

QRNNは並列畳み込み計算と軽量な再帰的プーリングを組み合わせて系列をモデル化し、訓練/推論を高速化し、言語タスクにおいてLSTMsより競争力のあるまたはより良い精度を発揮する。

ABSTRACT

Recurrent neural networks are a powerful tool for modeling sequential data, but the dependence of each timestep's computation on the previous timestep's output limits parallelism and makes RNNs unwieldy for very long sequences. We introduce quasi-recurrent neural networks (QRNNs), an approach to neural sequence modeling that alternates convolutional layers, which apply in parallel across timesteps, and a minimalist recurrent pooling function that applies in parallel across channels. Despite lacking trainable recurrent layers, stacked QRNNs have better predictive accuracy than stacked LSTMs of the same hidden size. Due to their increased parallelism, they are up to 16 times faster at train and test time. Experiments on language modeling, sentiment classification, and character-level neural machine translation demonstrate these advantages and underline the viability of QRNNs as a basic building block for a variety of sequence tasks.

研究の動機と目的

長い系列に対する従来のRNNの並列性の制限を動機づけて対処する。
畳み込み層と最小限のプーリング機構を交互に用いるQRNNアーキテクチャを提案する。
QRNNがLSTMsと比較して、タスク全体で速度を大幅に向上させつつ、精度を上回るまたは同等であることを示す。
dense connections、attention、encoder–decoderといった変種や拡張を探る。
感情分析、言語モデリング、文字レベルの機械翻訳で経験的な改善を示す。

提案手法

QRNN層を、masked convolutionsを用いてZ, F, Oを生成する畳み込み成分として表現する: Z = tanh(W_z * X), F = sigmoid(W_f * X), O = sigmoid(W_o * X).
ゲート（f, o, i）によって制御されるパラメータレスのプーリング関数を使用し、チャネルごとの並列性を保ちながらタイムステップ間で状態を伝搬させる。
容量を増し、より深いモデルを可能にするために複数のQRNN層を積み重ねる。
正則化（プーリングゲート上のzoneout）、DenseNet風のスキップ接続などの密結合拡張、およびseq2seqタスクのためのencoder–decoderアテンションを拡張として追加する。
encoder–decoderの修正を組み込み、エンコーダ状態をデコーダQRNNゲートに注入し、文脈としてアテンションを用いる。
f-pooling、fo-pooling、ifo-poolingといった変種を用いてチャネル間のプーリングダイナミクスを制御する。

実験結果

リサーチクエスチョン

RQ1QRNNは系列順序情報を損なうことなく、タイムステップとチャネル間の並列計算を提供できるか。
RQ2言語モデリング、感情分析、翻訳において、LSTMsと比較した精度はどうか。
RQ3dense connections、attention、encoder–decoder構成といったアーキテクチャ拡張は、系列タスクにおけるQRNNの性能を高めるか。
RQ4訓練および推論の速度向上は、データセットと系列長に対してLSTMsを最適化した場合と比較してどれくらいか。

主な発見

Model	Time / Epoch (s)	Test Acc (%)
NBSVM-bi (Wang & Manning, 2012)	—	91.2
2 layer sequential BoW CNN (Johnson & Zhang, 2014)	—	92.3
Ensemble of RNNs and NB-SVM (Mesnil et al., 2014)	—	92.6
2-layer LSTM (Longpre et al., 2016)	—	87.6
Residual 2-layer bi-LSTM (Longpre et al., 2016)	—	90.1
Densely-connected 4-layer LSTM (cuDNN optimized)	480	90.9
Densely-connected 4-layer QRNN	150	91.4
Densely-connected 4-layer QRNN with k=4	160	91.1

QRNNはIMDb感情分類、Penn Treebank言語モデリング、文字レベルのドイツ語–英語翻訳において、同じ隠れ層サイズのLSTMsを上回る。
並列性の向上により、訓練時および評価時に最大16xの速度アップを実現できる settingsがある。
IMDbでは、 densely-connected 4-layer QRNNは4層256ユニットでテスト精度91.4%を達成。
PTB言語モデリングでは、QRNN（中位）はzoneout正則化を特に適用するとLSTMsと競合する perplexitiesを達成。
IWSLTドイツ語–英語翻訳の文字レベルQRNNはBLEU 19.41を達成し、同程度のサイズの文字-LSTMを上回る1.0 hr/epochの訓練時間。
QRNNは独立したチャネルプーリングのため、解釈可能なチャネルごとの状態を維持しており、分析とデバッグを支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。