[論文レビュー] Distance-based Self-Attention Network for Natural Language Inference
Distance-based Self-Attention Network を導入し、距離マスクをマルチヘッド注意機構に追加して局所的な依存関係を捉えつつグローバルな文脈を保持し、SNLI で最先端を達成し、MultiNLI でも強力な結果を示す。
Attention mechanism has been used as an ancillary means to help RNN or CNN. However, the Transformer (Vaswani et al., 2017) recently recorded the state-of-the-art performance in machine translation with a dramatic reduction in training time by solely using attention. Motivated by the Transformer, Directional Self Attention Network (Shen et al., 2017), a fully attention-based sentence encoder, was proposed. It showed good performance with various data by using forward and backward directional information in a sentence. But in their study, not considered at all was the distance between words, an important feature when learning the local dependency to help understand the context of input text. We propose Distance-based Self-Attention Network, which considers the word distance by using a simple distance mask in order to model the local dependency without losing the ability of modeling global dependency which attention has inherent. Our model shows good performance with NLI data, and it records the new state-of-the-art result with SNLI data. Additionally, we show that our model has a strength in long sentences or documents.
研究の動機と目的
- 局所的な語の依存関係を捉えることによって自然言語推論の文エンコーダの改善を動機づける。
- 全注意機構ベースのエンコーダに語距離情報を組み込みつつ、グローバルな文脈を損なわない。
- 提案された distance-based attention を SNLI および MultiNLI データセットで評価する。
- 距離マスクが注意機構と性能にどこでどのように影響するかを示す分析を提供する。
提案手法
- Transformer風の注意機構に distance mask を追加して相対的な語距をモデル化する。
- 前方・後方の依存関係をエンコードする方向性マスクを組み込み。
- 投影された語埋め込みとマスクされた注意出力を結合するフュージョンゲートを導入する。
- フュージョン段階の後に残差接続を備えた位置ごとの全結合ネットワークを用いる。
- 多次元自己注意と最大プーリングによるプーリングを適用して文表現を得る。
実験結果
リサーチクエスチョン
- RQ1自己注意に distance mask を追加すると、従来の完全に注意機構ベースのエンコーダと比較して自然言語推論の性能が向上しますか?
- RQ2距離マスクは長文と短文での注意パターンにどのように影響しますか?
- RQ3距離マスクが SNLI および MultiNLI ベンチマークに与える影響はどの程度ですか?
- RQ4提案モデルは局所的依存関係の捕捉とグローバルな文脈モデリングのバランスをどのように取っていますか?
主な発見
- 距離マスクは、完全に注意機構ベースのエンコーダと組み合わせて SNLI で最先端の結果をもたらす。
- 距離マスクは特に長文での性能を改善し、平均文長が増えるにつれてさらに大きな向上を示す。
- アブレーション分析により、距離マスクの包含はモデルサイズやトレーニング時間を大幅に増やすことなく精度を向上させることが示される。
- MultiNLI では、モデルは競争力があり、より深い LSTM ベースのモデルと比べて推論層が比較的単純でも高い精度を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。