Skip to main content
QUICK REVIEW

[論文レビュー] Character-based Joint Segmentation and POS Tagging for Chinese using Bidirectional RNN-CRF

Yan Shao, Christian Hardmeier|arXiv (Cornell University)|Apr 5, 2017
Natural Language Processing Techniques参考文献 29被引用数 69
ひとこと要約

完全に文字ベースの BiRNN-CRF モデルを用いた中国語の語彙分割と品詞付けを同時に行うモデルで、連結された n-gram 文字表現、サブ文字特徴(部首と CNN由来の正字特徴)、および事前学習済み埋め込みを使用します。CTB5 で最先端の結果を達成し、CTB9 および UD Chinese においても堅牢な性能を示します。

ABSTRACT

We present a character-based model for joint segmentation and POS tagging for Chinese. The bidirectional RNN-CRF architecture for general sequence tagging is adapted and applied with novel vector representations of Chinese characters that capture rich contextual information and lower-than-character level features. The proposed model is extensively evaluated and compared with a state-of-the-art tagger respectively on CTB5, CTB9 and UD Chinese. The experimental results indicate that our model is accurate and robust across datasets in different sizes, genres and annotation schemes. We obtain state-of-the-art performance on CTB5, achieving 94.38 F1-score for joint segmentation and POS tagging.

研究の動機と目的

  • 中国語における語彙分割と品詞付けを共同で行う、完全に文字ベースの BiRNN-CRF モデルを実証する。
  • 豊かな文脈情報およびサブ文字情報を捉える新しい文字表現を開発・評価する。
  • サイズ・ジャンル・アノテーションスキームが異なるデータセット間での堅牢性を評価する。
  • 最先端の ZPar システムと比較し、OOV 単語の扱いを分析する。
  • オープンソース実装と事前学習済み文字埋め込みを提供する。

提案手法

  • 中国語の文字上で語彙分割と品詞付けを共同で行うために、BiRNN-CRF タギングフレームワークを適応させる。
  • 局所的な文脈情報を捉えるために、中国語の文字を連結された n-gram ベクトルで表現する。
  • 部首(ルックアップベース)と CNN ベースの正字特徴を用いてサブ文字情報を組み込む。
  • 文脈自由ベクトルの代わりに事前学習済み文字埋め込み(GloVe)を任意で使用する。
  • 4 つの独立に訓練されたモデルのスコアを平均してアンサンブルデコーディングを適用する。
  • Adagrad で学習し、ドロップアウト、バケット化学習、および1次の CRF 層上での Viterbi デコーディングを用いる。

実験結果

リサーチクエスチョン

  • RQ1完全に文字ベースの BiRNN-CRF モデルは、中国語の語彙分割と品詞付けの共同タスクで最先端を達成できるか?
  • RQ2連結された n-gram 文字表現は標準の文字埋め込みを超えて語彙分割とタグ付けを改善するか?
  • RQ3サブ文字情報(部首と CNN由来の特徴)の性能への影響はどの程度か?
  • RQ4事前学習済み文字埋め込みは、サイズやアノテーションスキームが異なるデータセットで結果にどう影響するか?
  • RQ5OOV単語の処理と全体的な堅牢性のために、アンサンブルデコーディングは有益か?

主な発見

  • 本モデルはCTB5で最先端の語彙分割と品詞付けを達成する(Seg&Tag の F1=94.38、アンサンブル時)。
  • 連結された3-gram表現はベースの文字埋め込みよりも性能を大幅に向上させるが、4-gramおよび5-gramの利得はデータセットに依存し、小規模データセットでは往々にして限定的または有害となる。
  • 部首とグラフィカル特徴(CNN由来)はいくつかのデータセットで利得を提供する(特に CTB5 の POS タギングにおける部首;グラフィカル特徴は UD1 を向上させるが計算コストが高い)。
  • 事前学習済み文字埋め込みは性能を向上させ、特に UD Chinese のような小規模データセットで効果が大きいが、3-gram と部首を使用すると利得が減少することがある。
  • 4つの独立して訓練されたモデルをアンサンブルすることで、データセット全体にわたり一貫した改善をもたらし、OOV単語の扱いにも有益である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。