[論文レビュー] Constituency Parsing with a Self-Attentive Encoder
この論文はLSTMエンコーダを自己注意型エンコーダに置き換え、識別的構成素解析器でWSJで最先端の結果を達成し、多言語でも高性能を示し、内容と位置の注意を分離することが解析に寄与することを分析する。
We demonstrate that replacing an LSTM encoder with a self-attentive architecture can lead to improvements to a state-of-the-art discriminative constituency parser. The use of attention makes explicit the manner in which information is propagated between different locations in the sentence, which we use to both analyze our model and propose potential improvements. For example, we find that separating positional and content information in the encoder can lead to improved parsing accuracy. Additionally, we evaluate different approaches for lexical representation. Our parser achieves new state-of-the-art results for single models trained on the Penn Treebank: 93.55 F1 without the use of any external data, and 95.13 F1 when using pre-trained word representations. Our parser also outperforms the previous best-published accuracy figures on 8 of the 9 languages in the SPMRL dataset.
研究の動機と目的
- 自己注意型エンコーダは最先端の識別的構成素解析器においてLSTMエンコーダを上回ることを示す。
- 注意のタイプ(内容と位置)が解析性能に与える影響を調査し、情報の明示的な因数分解を探る。
- 語彙表現の異なる評価、サブワード特徴や事前学習済みの文脈埋め込みを含む、解析精度のための評価。
- 外部データなしかつ事前学習表現を用いたWSJで最先端の結果を示す;SPMRLでの多言語汎化を評価する。
- 構文解析決定における長距離依存と全体文脈の役割を分析する。
提案手法
- Transformerに触発された自己注意ネットワークを用いたエンコーダ-デコーダアーキテクチャを用い、8層のマルチヘッド自己注意と位置ごとに適用されるフィードフォワードサブレイヤを備える。
- Stern et al. (2017a) のアプローチに従い、ペアワイドエンドポイント表現上のニューラルネットワークを用いて span スコア s(i,j,l) を計算する。
- 入力表現は単語埋め込み、品詞タグ埋め込み、および学習済みの位置埋め込みを組み合わせ、内容情報と位置情報を分解して扱う。
- ラベル付きスパンに対してマージンベースのヒンジ損失で訓練し、デコードにはCKYスタイルの推論を用いる。
- 内容と位置の信号を分離する因子化注意と、代替語彙表現(CharLSTM、CharConcat、ELMo)を用いた実験。
- Penn Treebank WSJ と SPMRL 多言語データセットで評価し、開発セットとテストセットのF1スコアを報告する。
実験結果
リサーチクエスチョン
- RQ1自己注意型エンコーダは識別的構成素解析のためのLSTMベースのエンコーダを上回ることができるか?
- RQ2エンコーダで内容と位置情報を明示的に分離することは解析精度を向上させるか?
- RQ3サブワード特徴や文脈埋め込みを含む異なる語彙表現が解析性能に与える影響は?
- RQ4自己注意型エンコーダを用いたモデルはWSJおよびSPMRLの言語間でどの程度良好に機能するか?
主な発見
- 自己注意型エンコーダはWSJ開発データでLSTMエンコーダを上回る(92.67 F1 vs 92.24 F1)。
- 内容情報と位置情報を因数分解すると性能が向上する(因数分解時の開発セットで93.15 F1)。
- 内容注意を無効化しても影響は限定的で、全体としては位置注意の方が重要である;内容は後段の層でより役に立つ。
- 長距離注意は最大精度のために不可欠;厳格なウィンドウ設定は性能を損なう一方、緩いウィンドウ設定は全体的プーリングの利点を一部保つ。
- CharLSTM語彙表現はPOStagsを上回り、単語埋め込みなしでも良好な結果を可能にする(CharLSTM 93.61 開発時、埋め込みあり;93.40 埋め込みなし)。
- ELMo文脈埋め込みはWSJテストF1を95.13へ向上させる(単一システムWSJの最先端)4層エンコーダで;外部データなしで達成されたベースは93.55 F1(単一システム、WSJのみ)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。