QUICK REVIEW
[論文レビュー] Dynamic Self-Attention : Computing Attention over Words Dynamically for Sentence Embedding
Deunsol Yoon, Dongbok Lee|arXiv (Cornell University)|Aug 22, 2018
Topic Modeling参考文献 14被引用数 40
ひとこと要約
本論文はDynamic Self-Attention(DSA)を提案します。カプセルネットワークに触発された動的ウェイトベクトルを用いる自己注意機構で、少ないパラメータでSNLIの最先端成果を達成し、SSTでは競争力のある結果を示します。
ABSTRACT
In this paper, we propose Dynamic Self-Attention (DSA), a new self-attention mechanism for sentence embedding. We design DSA by modifying dynamic routing in capsule network (Sabouretal.,2017) for natural language processing. DSA attends to informative words with a dynamic weight vector. We achieve new state-of-the-art results among sentence encoding methods in Stanford Natural Language Inference (SNLI) dataset with the least number of parameters, while showing comparative results in Stanford Sentiment Treebank (SST) dataset.
研究の動機と目的
- 静的な重みベクトルを超える文埋め込みのための柔軟な注意機構を動機づける。
- ダイナミックルーティングの概念を適用して動的な自己注意ウェイトを作成する。
- DSAがより少ないパラメータと効率的な計算で強力なSNLI結果を達成できることを示す。
提案手法
- 単語表現を符号化するためにDense Connectionsを備えたCNNを構築する。
- 単語埋め込みを共有行列で投影し、ダイナミックルーティングに触発されたプロセスを通じて動的ウェイトベクトルを反復的に洗練させることで、Dynamic Self-Attention(DSA)を実装する。
- 複数のアテンション z1,...,zm を連結して最終的な文の埋め込み z を形成する。
- カプセル特有の要素(例:スクワッシュ)を、スカラーニューロン用の tanh に置換し、注意のために単語ごとに1つのベクトルを使用する。
- 単一DSAと複数DSAの設定として600次元および300次元を用い、Leaky ReLU活性化とドロップアウトで正則化を図る。
- 訓練中に固定されたGloVe埋め込みを用い、SNLIおよびSSTタスクで交差エントロピーを用いて評価する。)
実験結果
リサーチクエスチョン
- RQ1動的で入力依存のウェイトベクトルは、静的な自己注意よりも文の埋め込み品質を改善するか?
- RQ2DSAは、少ないパラメータと高速な訓練時間でSNLIおよびSSTのベンチマークで競争力あるまたは最先端の性能を達成できるか?
- RQ3アテンションの数(m)と射影設定が性能と効率性にどう影響するか?
主な発見
- 単一のDSAは2.1百万パラメータでSNLIのテスト精度86.8%の最先端を達成。
- 複数のDSAはSNLIの性能をさらに向上させ、ベースラインの自己注意に対して相対的な顕著なゲインを得ている。
- SSTでは、単一DSAがSST-2で88.5%、SST-5で50.6を達成し、競争力のある結果を示す。
- DSAはSNLIでいくつかのベースラインよりもパラメータ数を削減し、1エポックあたりの訓練時間も速く(例: 135 s/epoch)優れた性能を示す。
- 動的ウェイトベクトルは文ごとに多様な方向性を示し、適応的な注意を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。