Skip to main content
QUICK REVIEW

[論文レビュー] SyntaxNet Models for the CoNLL 2017 Shared Task

Chris Alberti, Daniel Andor|arXiv (Cornell University)|Mar 15, 2017
Natural Language Processing Techniques参考文献 10被引用数 38
ひとこと要約

この論文では、DRAGNNフレームワークに基づき、文字レベルのLSTMと遷移ベースのパーサー、および共同タギングを組み合わせた多言語依存構文解析モデル、ParseySaurusを紹介する。52個のUniversal Dependencies木書(treebanks)において、先行する最先端モデルよりも3.47%の絶対的なLabeled Accuracy Score(LAS)の向上を達成し、多言語構文解析性能に顕著な向上を示している。

ABSTRACT

We describe a baseline dependency parsing system for the CoNLL2017 Shared Task. This system, which we call "ParseySaurus," uses the DRAGNN framework [Kong et al, 2017] to combine transition-based recurrent parsing and tagging with character-based word representations. On the v1.3 Universal Dependencies Treebanks, the new system outpeforms the publicly available, state-of-the-art "Parsey's Cousins" models by 3.47% absolute Labeled Accuracy Score (LAS) across 52 treebanks.

研究の動機と目的

  • Universal Dependenciesへの多言語構文解析のための強力で公開可能なベースラインを提供すること。
  • 文字レベルの表現と動的再帰的パーサーを統合することで、既存のSyntaxNetモデルを改善すること。
  • 事前学習済みモデルとコードの公開により、小規模な研究チームが多言語構文解析に参加できるようにすること。
  • 文字レベルの特徴を用いたタギングとパーサーの共同学習の有効性を示すこと。

提案手法

  • モデルは、テキストを左から右へ処理する1つの文字レベルLSTMを用い、語の境界で語表現を生成する。
  • 2番目の、右から左へのLSTMは、語表現を処理し、文脈のための「先行読み」表現を生成する。
  • 3番目のLSTMは、POSタグの予測を学習するように訓練され、先行読み表現を入力として受け取り、共同タッパーとして機能する。
  • パーサー部は、ビームサーチ(ビームサイズ8)を用いた遷移ベースのarc-standardシステムであり、スタック、バッファ、タッパー/先行読み層からの入力表現を動的に統合する。
  • すべてのモジュールは、タッパーとパーサーを交互に更新するマルチタスクで最大尤度な「スタック伝搬(stack-propagation)」法を用いて、同時に学習する。
  • 自己正規化ソフトマックス、レイヤー正規化、勾配クリッピング、ドロップアウト、および適応的学習率を用いたADAM最適化を採用する。

実験結果

リサーチクエスチョン

  • RQ1統一的で文字に注意を向けるニューラルネットワークアーキテクチャは、多様な言語において多言語依存構文解析性能を向上させることができるか?
  • RQ2タギングとパーサーの共同学習に文字レベル表現を統合することで、先行モデルと比較してパーサーの正確性はどのように向上するか?
  • RQ3動的かつ再帰的な表現の合成は、静的または固定順序のモデルに比べて、依存構文解析でどのように優れているか?
  • RQ41つの共有アーキテクチャが、Universal Dependencies v1.3の52の多様な言語の木書で強力な性能を達成できるか?
  • RQ5自己正規化ソフトマックスの訓練は、ニューラル依存構文解析におけるビームサーチ性能を向上させるか?

主な発見

  • ParseySaurusは、52個のUniversal Dependencies木書において、先行モデル「Parsey’s Cousins」と比較して、Labeled Accuracy Score(LAS)で3.47%の絶対的向上を達成した。
  • 低リソース言語において顕著な向上を示し、特にラトビア語ではLASが12.0%の絶対的向上を示した。
  • 平均して14.4%の相対的誤差削減(RRIE)を達成しており、言語全体にわたる顕著な性能向上を示している。
  • 52のすべての木書で、先行する最先端モデルを上回った。特に語形に豊富な言語や低リソース言語で最大の向上が見られた。
  • 文字レベルLSTMとタギングとの共同学習の導入により、希少語や未知語に対しても、強靭性と正確性が著しく向上した。
  • 実装(事前学習済みモデルとコードを含む)は、コミュニティの利用および拡張を目的として、SyntaxNetのGitHubリポジトリで公開されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。