Skip to main content
QUICK REVIEW

[論文レビュー] Head-Driven Phrase Structure Grammar Parsing on Penn Treebank

Junru Zhou, Hai Zhao|arXiv (Cornell University)|Jul 5, 2019
Topic Modeling参考文献 68被引用数 20
ひとこと要約

本稿では、構文的構造と従属構造を統一する1つの形式的枠組みに統合する、簡素化されたヘッド駆動型フレーズ構造文法(HPSG)の新規提案を行う。2つの新しいアルゴリズム(division span と joint span)を用いて、統合的なパースを実現する。モデルは、BERTベースの特徴量を用いて、Penn Treebankで最先端の結果を達成し、構文的パースでは96.33 F1、従属的パースでは97.20% UASを達成した。

ABSTRACT

Head-driven phrase structure grammar (HPSG) enjoys a uniform formalism representing rich contextual syntactic and even semantic meanings. This paper makes the first attempt to formulate a simplified HPSG by integrating constituent and dependency formal representations into head-driven phrase structure. Then two parsing algorithms are respectively proposed for two converted tree representations, division span and joint span. As HPSG encodes both constituent and dependency structure information, the proposed HPSG parsers may be regarded as a sort of joint decoder for both types of structures and thus are evaluated in terms of extracted or converted constituent and dependency parsing trees. Our parser achieves new state-of-the-art performance for both parsing tasks on Penn Treebank (PTB) and Chinese Penn Treebank, verifying the effectiveness of joint learning constituent and dependency structures. In details, we report 96.33 F1 of constituent parsing and 97.20\% UAS of dependency parsing on PTB.

研究の動機と目的

  • 構文的および従属的構文的構造を、より豊かな言語的表現を可能にする簡素化されたHPSG形式的枠組み内で統一すること。
  • 統一されたHPSG構造に特化した、新規のパースアルゴリズム(division span および joint span)の開発。
  • 統合的パースモデルを構文的および従属的パースの両タスクで評価し、統合学習による性能向上を実証すること。
  • 英語(PTB)および中国語(CTB)の両方のツリー・バンクで、構文的および従属的パースの両方のタスクにおいて最先端の性能を達成すること。

提案手法

  • 著者らは、Penn Treebankからの構文的および従属的ツリー表現を統合することで、簡素化されたHPSGを構築し、ヘッド駆動構造と値性情報の両方を保持した。
  • 2つのスパンベースの表現が導入された:division span はヘッド位置に「H」を接頭辞として付加して、ヘッドの左右を区別する。joint span は、フレーズ構造と従属的アーキを両方とも符号化する。
  • 自己注意に基づくニューラルモデルを、division span もしくは joint span 表現を用いて、エンド・ツー・エンドに簡素化されたHPSGパースツリーを予測するように訓練した。
  • 表現学習の向上と一般化性能の向上を図るため、文脈的埋め込み(ELMo、BERT、RoBERTa、XLNet)をモデルが活用した。
  • トレーニング中に構文的および従属的スコアを同時に最適化することで、両構造の統合学習が可能となる、統合デコードが実施された。
  • 簡素化されたHPSGから導出された構文的および従属的パースツリーに対して、標準的なF1およびUASメトリクスを用いてパーサーを評価した。

実験結果

リサーチクエスチョン

  • RQ1統一されたHPSG形式的枠組みは、構文的および従属的構文的構造を効果的に統合し、パース性能を向上させることができるか?
  • RQ2簡素化されたHPSGフレームワークを用いて、構文的および従属的パースを統合学習することで、個別学習よりも性能向上が達成できるか?
  • RQ3提案されたdivision spanおよびjoint span表現は、標準ベンチマークでより高い精度を達成する神経的パースに有効に機能するか?
  • RQ4HPSGによるより豊かな言語的構造の統合は、英語および中国語のツリー・バンクの両方でパース性能をどの程度向上させるか?

主な発見

  • 提案されたHPSGパーサーは、Penn Treebankの構文的パースベンチマークで96.33 F1という、新たな最先端のスコアを達成した。
  • モデルは、Penn Treebankの従属的パースタスクで97.20% UASを達成し、これも新たな最先端の結果となった。
  • XLNet埋め込みを用いた場合、joint spanモデルは96.33 F1および97.20% UASに到達し、統合学習および文脈的表現の有効性を示した。
  • 中国語Penn Treebankでは、RoBERTaを用いて92.55 F1を達成し、先行手法を上回り、言語間の一般化性を確認した。
  • joint spanパース手法は、常にdivision span手法を上回る性能を示しており、構文的および従属的構造の統合符号化がより効果的であることを示している。
  • 統一されたHPSGフレームワークを用いた構文的および従属的パースの統合学習が、顕著な性能向上をもたらすことが、結果から裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。