QUICK REVIEW

[論文レビュー] Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Tao Shen, Tianyi Zhou|arXiv (Cornell University)|Jan 31, 2018

Topic Modeling参考文献 34被引用数 26

ひとこと要約

本稿では、RNN/CNNを用いない文表現モデルとして、独創的な並列処理可能なハード注目メカニズム「強化逐次サンプリング（RSS）」とソフト自己注目を組み合わせた、Reinforced Self-Attention Network（ReSAN）を提案する。このモデルは、長文における疎な依存関係を効率的にモデル化する。RSSによりキーワードを抽出し、ソフト注目により方策勾配報酬を提供することで、パrameter数が少なく、推論が速いにもかかわらず、SNLIおよびSICKベンチマークで最先端の性能を達成する。

ABSTRACT

Many natural language processing tasks solely rely on sparse dependencies between a few tokens in a sentence. Soft attention mechanisms show promising performance in modeling local/global dependencies by soft probabilities between every two tokens, but they are not effective and efficient when applied to long sentences. By contrast, hard attention mechanisms directly select a subset of tokens but are difficult and inefficient to train due to their combinatorial nature. In this paper, we integrate both soft and hard attention into one context fusion model, "reinforced self-attention (ReSA)", for the mutual benefit of each other. In ReSA, a hard attention trims a sequence for a soft self-attention to process, while the soft attention feeds reward signals back to facilitate the training of the hard one. For this purpose, we develop a novel hard attention called "reinforced sequence sampling (RSS)", selecting tokens in parallel and trained via policy gradient. Using two RSS modules, ReSA efficiently extracts the sparse dependencies between each pair of selected tokens. We finally propose an RNN/CNN-free sentence-encoding model, "reinforced self-attention network (ReSAN)", solely based on ReSA. It achieves state-of-the-art performance on both Stanford Natural Language Inference (SNLI) and Sentences Involving Compositional Knowledge (SICK) datasets.

研究の動機と目的

長文におけるソフト注目の非効率さと一般化性能の低さ（無関係なトークンに対しても非ゼロの注目が行われるため）を是正する。
組み合わせ的選択プロセスに起因するハード注目の非微分可能性和、遅い学習速度を克服する。
ハード注目とソフト注目のメカニズムを統合し、訓練の安定性とモデリング能力を相互に向上させる。
RNNやCNNを一切使用しない軽量なアーキテクチャを構築し、高い性能と効率を維持する文表現モデルを開発する。
再帰的または畳み込み構造に依存せず、自然言語推論および意味的類似度タスクで最先端の結果を達成する。

提案手法

方策勾配アプローチを用いて逐次的サンプリングを回避し、並列処理可能な新しいハード注目メカニズム「強化逐次サンプリング（RSS）」を提案する。
2つの入力シーケンスのコピーから、それぞれ独立して主語トークンと従属語トークンを選択する2つのRSSモジュールを備えたハイブリッドモデル「強化自己注目（ReSA）」を設計する。
選択された主語および従属語トークン間の注目スコアを、ソフト自己注目を用いて計算し、疎で意味のある依存関係に焦点を当てる。
ソフト自己注目によるスコアを密度報酬信号として用い、RSSモジュールを方策勾配（例：REINFORCE）により学習する。
ReSAを完全に基盤とした文表現モデルReSANを構築し、RNNおよびCNNを完全に排除する。
選択されたトークンから直接予測を可能にするために、source2token自己注目メカニズムを適用する。

実験結果

リサーチクエスチョン

RQ1ハード注目とソフト注目を統合したハイブリッド注目メカニズムは、長文におけるモデリング効率と性能を向上させることができるか？
RQ2RSSのような並列処理可能で非再帰的なハード注目メカニズムは、方策勾配による学習が可能であり、高い性能を維持できるか？
RQ3ソフト注目を報酬信号として統合することで、シーケンスモデリングにおけるハード注目の学習可能性と精度が向上するか？
RQ4RNN/CNNを一切使用しない完全な注目ベースのモデルReSANは、自然言語推論および意味的類似度タスクで既存のアーキテクチャを上回る性能を発揮できるか？
RQ5SOTAモデルと比較して、パrameter数と推論時間はどの程度削減され、精度は維持または向上するか？

主な発見

ReSANは、すべての文表現モデルの中で公式SNLIリーダーボードで最高のテスト精度を達成し、新たな最先端性能を樹立した。
SICKデータセットでは、意味的類似度タスクで最先端の性能を達成し、既存のモデルを上回った。
RNN、CNN、さらには複雑な外部メモリベースのモデルに対しても、パrameter数が少なく、推論時間が速い。
可視化結果から、ReSAは意味的に重要な語（例：動詞や名詞）を主語および従属語として効果的に選択しており、ほとんどがストップワードをフィルタリングしている。
ソフト自己注目モジュールは、意味的グループ（例：'sit'と'talk'）を形成する意味のある語のペアに高い注目スコアを割り当てており、効果的な依存関係モデリングを確認した。
RSS機構により、並列的なトークン選択が可能となり、逐次的ハード注目手法に比べて訓練効率が著しく向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。