[論文レビュー] DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding
DiSANは方向性かつ多次元の自己注意を導入してRNN/CNNを使わず文をエンコードし、SNLI、SST、MultiNLI、SICKなどのベンチマークで最先端を達成しつつ効率を向上させる。
Recurrent neural nets (RNN) and convolutional neural nets (CNN) are widely used on NLP tasks to capture the long-term and local dependencies, respectively. Attention mechanisms have recently attracted enormous interest due to their highly parallelizable computation, significantly less training time, and flexibility in modeling dependencies. We propose a novel attention mechanism in which the attention between elements from input sequence(s) is directional and multi-dimensional (i.e., feature-wise). A light-weight neural net, "Directional Self-Attention Network (DiSAN)", is then proposed to learn sentence embedding, based solely on the proposed attention without any RNN/CNN structure. DiSAN is only composed of a directional self-attention with temporal order encoded, followed by a multi-dimensional attention that compresses the sequence into a vector representation. Despite its simple form, DiSAN outperforms complicated RNN models on both prediction quality and time efficiency. It achieves the best test accuracy among all sentence encoding methods and improves the most recent best result by 1.02% on the Stanford Natural Language Inference (SNLI) dataset, and shows state-of-the-art test accuracy on the Stanford Sentiment Treebank (SST), Multi-Genre natural language inference (MultiNLI), Sentences Involving Compositional Knowledge (SICK), Customer Review, MPQA, TREC question-type classification and Subjectivity (SUBJ) datasets.
研究の動機と目的
- seq2seqアプリケーションを超える多様なNLPタスクのためのRNN/CNNを使わない統一的な注意モデルの提案を動機づける。
- 時間順序と特徴ごとの依存関係を保持するために、方向性自己注意と多次元自己注意を提案する。
- 前向き/後向きの方向性自己注意とsource2token注意により文を符号化し単一ベクトルを生成する軽量なDiSANを構築する。
- DiSANがSNLI、SST、MultiNLI、SICK、およびその他のデータセットで高い精度と効率を達成することを実証する。
提案手法
- 各トークンに対して単一のスカラー値ではなく、特徴ごとのスコアを計算する多次元注意を導入する。
- 自己注意のために、多次元注意をtoken2tokenおよびsource2tokenのバリアントに拡張する。
- 入力と文脈を結合するための融合ゲートとマスクされたtoken2token自己注意を用いたDirectionaI Self-Attention(DiSA)を開発する。
- 前向きおよび後ろ向きのDiSAブロックを適用し、その出力を結合し、最終的な文ベクトルを生成するために多次元のsource2token注意を使用して DiSAN アーキテクチャを構築する。
- 注意機構において時間順序と方向情報を符号化するために、マスク(diag-disabled、forward、backward)を使用する。
- 交差エントロピー損失にL2正則化、Adadelta最適化、Glorot初期化、300D GloVe埋め込み、ドロップアウト、タスク固有の分類器を用いて学習する。
実験結果
リサーチクエスチョン
- RQ1再帰や畳み込みを用いない注意のみのモデルは、標準的なNLPベンチマークで競争力のあるまたはそれを上回る性能を達成できるか?
- RQ2方向性(順序付けされた)および多次元(特徴ごと)アテンションは、従来のアテンション機構に比べて文の表現能力を改善するか?
- RQ3軽量なDiSANは、NLI、感情分析、分類などのタスクで、RNN/CNNベースのエンコーダと比較して精度と効率の点でどうか?
- RQ4前向きと後ろ向きの方向マスクとそれらの組み合わせが文脈表現に与える影響はどの程度か?
- RQ5DiSANは自然言語推論を超える複数のNLPタスクに一般化できるか?
主な発見
- DiSANはSNLIで文エンコードモデルの中で最も高いテスト精度を達成し、最良結果を1.02%向上させた。
- DiSANはSST、MultiNLI、SICK、Customer Review、MPQA、SUBJ、TRECデータセットで最先端の性能を示す。
- DiSANはパラメータ数が少なく(2.35M)、多くのRNN/CNNベースよりはるかに高速である(例:SNLIでBi-LSTMの3倍速)。
- 多次元および方向性アテンション成分はベースラインより顕著な改善をもたらし、時間順序を符号化する方向性マスクが性能を向上させる。
- DiSAベースのブロックと多次元のsource2token注注意を組み合わせると、Bi-LSTMエンコーダやツリー構造を持つモデルを上回ることができる、いくつかのタスクで。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。