QUICK REVIEW

[論文レビュー] Neural Probabilistic Model for Non-projective MST Parsing

Xuezhe Ma, Eduard Hovy|arXiv (Cornell University)|Jan 4, 2017

Natural Language Processing Techniques参考文献 53被引用数 23

ひとこと要約

この論文は、非射影的依存構文解析のためのニューラル確率的モデルを提案する。このモデルは、文脈的および文字レベルの表現学習に双方向LSTM-CNNを組み合わせ、対数線形構造予測層を用いる。キルホフの行列-木定理を用いることで、分割関数と周辺分布を効率的に計算でき、バックプロパゲーションによるエンドツーエンド学習が可能となり、14ヶ国語の17個のベンチマークコーパスのうち9つで最先端の性能を達成した。

ABSTRACT

In this paper, we propose a probabilistic parsing model, which defines a proper conditional probability distribution over non-projective dependency trees for a given sentence, using neural representations as inputs. The neural network architecture is based on bi-directional LSTM-CNNs which benefits from both word- and character-level representations automatically, by using combination of bidirectional LSTM and CNN. On top of the neural network, we introduce a probabilistic structured layer, defining a conditional log-linear model over non-projective trees. We evaluate our model on 17 different datasets, across 14 different languages. By exploiting Kirchhoff's Matrix-Tree Theorem (Tutte, 1984), the partition functions and marginals can be computed efficiently, leading to a straight-forward end-to-end model training procedure via back-propagation. Our parser achieves state-of-the-art parsing performance on nine datasets.

研究の動機と目的

非射影的依存木上の適切な条件付き確率分布を定義するニューラル確率的構文解析モデルの開発。
語と文字レベルの表現学習を統合するための双方向LSTM-CNNの統合。
キルホフの行列-木定理を用いた効率的な推論により、負の対数尤度を目的関数としてエンドツーエンド学習を可能にすること。
多様な低リソースおよび高リソース言語で最先端の性能を達成すること。
従来のモデルが採用していたマージンベースの目的関数や、構造的保証のない独立した頭語予測の限界を克服すること。

提案手法

モデルは双方向LSTM-CNNアーキテクチャを用いて語と文字レベルの表現を符号化し、CNNが文字列を処理し、BLSTMが文脈的な語表現を捉える。
二重線形スコア関数が、学習された重み行列、バイアス項、および連結された語表現を用いて、頭語と修飾語の間のエッジスコアを計算する。
確率的構造予測層は、すべての有効な非射影的依存木上の条件付き対数線形モデルを定義し、分割関数はキルホフの行列-木定理を用いて計算される。
モデルは負の対数尤度を目的関数として学習され、分割関数の計算を含むネットワーク全体に勾配が逆伝播される。
推論では、最大スパニングツリー（MST）アルゴリズムが学習されたスコアから最も確率の高い依存木をデコードする。
このアーキテクチャは、手作業の特徴量を必要とせず、エンドツーエンド学習が可能であり、新規言語やドメインへの適応を可能にする。

実験結果

リサーチクエスチョン

RQ1ニューラル確率的モデルは、適切な条件付き確率分布を備えた非射影的依存木を、表現学習と同時に効果的に解析できるか？
RQ2文字レベルと文脈的語表現を統合することで、多様な言語で構文解析の精度がどのように向上するか？
RQ3キルホフの行列-木定理を用いた効率的な分割関数計算を備えた構造的対数線形モデルは、効果的なエンドツーエンド学習を可能にするか？
RQ4提案されたモデルは、射影的および非射影的コーパスの両方で、既存のニューラルおよび非ニューラル解析システムを上回る性能を示すか？
RQ5文字レベルのCNNと双方向LSTMの統合は、低リソース言語および語形変化の豊かな言語で、性能向上にどの程度寄与するか？

主な発見

提案モデルは、14ヶ国語の17個のベンチマークコーパスのうち9つで最先端の性能を達成し、平均的に従来のシステムを顕著に上回った。
14ヶ国語の平均では、モデルのUASは、異なるシステムが異なる言語で達成した最良の公表済み結果を上回った。
Fullモデル（文字レベル特徴を含む）は、14ヶ国語中13ヶ国語で+POSモデルを上回り、文字レベルモデリングの利点を示した。
ブルガリア語、中国語、チェコ語、オランダ語、英語、ドイツ語、日本語、スペイン語の8ヶ国語で、UASおよびLASの両方で最先端のスコアを達成した。
アラビア語、デンマーク語、ポルトガル語、スロベニア語、スウェーデン語では、比較対象のすべてのシステムの中で最高のLASスコアを達成した。
モデルは、語形変化の豊かな言語および低リソース言語、特に中国語とスウェーデン語においても高い汎化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。