QUICK REVIEW

[論文レビュー] Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation

Chunqi Wang, Bo Xu|arXiv (Cornell University)|Nov 12, 2017

Natural Language Processing Techniques参考文献 45被引用数 43

ひとこと要約

本稿では、手動の特徴工学を伴わずに、豊富な n-gram 特徴を自動的に捉えるためにスタックされた畳み込み層を活用する、文字ベースの畳み込みニューラルネットワーク（CNN）と単語埋め込みを組み合わせた中国語の分かち書き手法を提案する。大規模な自己分離コーパスから事前学習された単語埋め込みを統合することで、外部のラベル付きデータを一切使用せずに、PKU で 96.5%、MSR で 98.0% の最先端の F1 スコアを達成した。

ABSTRACT

Character-based sequence labeling framework is flexible and efficient for Chinese word segmentation (CWS). Recently, many character-based neural models have been applied to CWS. While they obtain good performance, they have two obvious weaknesses. The first is that they heavily rely on manually designed bigram feature, i.e. they are not good at capturing n-gram features automatically. The second is that they make no use of full word information. For the first weakness, we propose a convolutional neural model, which is able to capture rich n-gram features without any feature engineering. For the second one, we propose an effective approach to integrate the proposed model with word embeddings. We evaluate the model on two benchmark datasets: PKU and MSR. Without any feature engineering, the model obtains competitive performance -- 95.7% on PKU and 97.3% on MSR. Armed with word embeddings, the model achieves state-of-the-art performance on both datasets -- 96.5% on PKU and 98.0% on MSR, without using any external labeled resource.

研究の動機と目的

手動のバイグラム特徴工学を伴わない文字ベースのニューラルモデルが、n-gram 特徴を自動的に捉える能力に限界があることに対処すること。
従来のモデルが単語レベルの意味を無視する傾向にあることに対し、文字ベースのモデルに完全な単語情報を取り入れること。
大規模な自己分離テキストから得られる半教師あり単語埋め込みを用いて、分かち書きの性能を向上させること。
外部のラベル付きリソースに依存せずに、ベンチマークデータセットで最先端の性能を達成すること。

提案手法

入力文字を密なベクトルに埋め込むために、文字レベルのルックアップテーブルを使用する。
Gated Linear Units（GLU）を用いたスタックされた1次元畳み込み層を採用し、文字列からの文脈表現を学習する。
出力のCNNにCRF層を追加してシーケンスレベルのラベル付けを保証し、文字間の一貫性を確保する。
単語を追加の入力特徴として扱うことで、文字ベースのモデルに事前学習済み単語埋め込みを統合する、新しい手法を導入する。
大規模な自己分離テキストから単語埋め込みを学習し、外部のラベル付きデータを一切使用せずに半教師あり学習を可能にする。
単語埋め込みを分かち書きモデルのエンドツーエンド学習中に微調整する、共同学習戦略を用いる。

実験結果

リサーチクエスチョン

RQ1中国語の分かち書きにおいて、明示的なバイグラム特徴工学を伴わないCNNベースのモデルは、豊富な n-gram 特徴を自動的に学習できるか？
RQ2自己分離データから得た単語埋め込みは、文字ベースのCWSシステムの性能向上にどの程度効果を発揮するか？
RQ3文字レベルのモデルに単語レベルの情報を統合することで、顕著な性能向上が得られるか？
RQ4提案されたモデルは、外部のラベル付き学習データを一切使用せずに最先端の結果を達成できるか？

主な発見

特徴工学なしで、提案されたCNNモデルはPKUで95.7%、MSRで97.3%のF1スコアを達成し、バイグラム特徴を含まない従来の文字ベースモデルを上回った。
事前学習済み単語埋め込みの統合により、モデルはPKUで96.5%、MSRで98.0%のF1スコアに到達し、新たな最先端性能を樹立した。
アブレーションスタディの結果、単語埋め込みと語彙の両方が性能向上にほぼ同等の寄与を示し、PKUではベースモデル比で0.4%の向上が得られた。
CNNがn-gram特徴を自動的に効果的に学習できることを示し、手作業による特徴の依存度を低減した。
外部のラベル付きデータがなくても、単語埋め込みによる性能向上は顕著であり、半教師あり事前学習の有効性を裏付けた。
既存の文字ベースモデルを上回り、単語ベースモデルと同等またはそれを上回る精度を達成した一方で、文字レベルモデリングの柔軟性を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。