Skip to main content
QUICK REVIEW

[論文レビュー] Subword Encoding in Lattice LSTM for Chinese Word Segmentation

Jie Yang, Yue Zhang|arXiv (Cornell University)|Oct 30, 2018
Natural Language Processing Techniques被引用数 36
ひとこと要約

本稿では、外部の分かち書きツールに依存せずに、語彙から得られる特徴とサブワードまたは語レベルの部分列をゲーテッド・ショートカット経路を介して統合する、サブワード符号化を用いたラティスLSTMネットワークを提案する。実験の結果、サブワード符号化は外部分かち書きツールに依存せず、語符号化と同等の性能を達成し、制御されたアブレーションスタディーにおいて事前学習された埋め込みよりも語彙の貢献度が大きいことが示された。

ABSTRACT

We investigate a lattice LSTM network for Chinese word segmentation (CWS) to utilize words or subwords. It integrates the character sequence features with all subsequences information matched from a lexicon. The matched subsequences serve as information shortcut tunnels which link their start and end characters directly. Gated units are used to control the contribution of multiple input links. Through formula derivation and comparison, we show that the lattice LSTM is an extension of the standard LSTM with the ability to take multiple inputs. Previous lattice LSTM model takes word embeddings as the lexicon input, we prove that subword encoding can give the comparable performance and has the benefit of not relying on any external segmentor. The contribution of lattice LSTM comes from both lexicon and pretrained embeddings information, we find that the lexicon information contributes more than the pretrained embeddings information through controlled experiments. Our experiments show that the lattice structure with subword encoding gives competitive or better results with previous state-of-the-art methods on four segmentation benchmarks. Detailed analyses are conducted to compare the performance of word encoding and subword encoding in lattice LSTM. We also investigate the performance of lattice LSTM structure under different circumstances and when this model works or fails.

研究の動機と目的

  • サブワード符号化がラティスLSTMにおける中国語語区切り(CWS)に与える有効性を調査し、外部分かち書きツールに依存しないことを目的とする。
  • 従来の語埋め込みベースのラティスLSTMと比較して、サブワード符号化の性能とロバストネスを評価すること。
  • ラティスLSTMモデルにおける語彙由来情報と事前学習された埋め込みの相対的貢献度を分析すること。
  • サブワード/語カバレッジが、多様なデータセットにおけるモデル性能に与える影響を評価すること。
  • 失敗事例を特定し、ラティスLSTMのゲート制御メカニズムの限界を分析すること。

提案手法

  • ラティスLSTM構造は、標準LSTMに、語彙から抽出された部分列(語またはサブワード)の開始・終了文字を結ぶゲーテッド・ショートカット経路を追加することで拡張される。
  • サブワード埋め込みは、バイトペア符号化(BPE)アルゴリズムを用いて生成され、事前に分かち書きされたコーパスに依存しなくなる。
  • 最終的な隠れ状態は、文字LSTM出力とすべてのゲーテッド・ショートカット経路の重み付き和として計算され、ゲートが各経路からの寄与度を制御する。
  • モデルは文字列シーケンス上でエンドツーエンドに訓練され、ラティス経路は入力文をサブワードまたは語語彙と照合することで動的に構築される。
  • 語彙と事前学習された埋め込みの貢献度を分離するために、各コンポonentを有効または無効にした状態でモデルを訓練する制御実験を実施する。
  • ケーススタディーでは、語ベースおよびサブワードベースのラティスモデルの失敗モードを分析し、ゲートメカニズムのロバストネスを評価する。

実験結果

リサーチクエスチョン

  • RQ1ラティスLSTMにおけるサブワード符号化は、中国語語区切りで語符号化と同等の性能を達成できるか?
  • RQ2サブワード符号化により、ラティスLSTMの語彙構築に外部分かち書きツールの必要がなくなるか?
  • RQ3ラティスLSTMにおける語彙由来情報と事前学習された埋め込みの貢献度は、どのように比較できるか?
  • RQ4サブワード/語カバレッジが、ラティスLSTMモデルの性能向上にどの程度影響を与えるか?
  • RQ5ラティスLSTMのゲート制御が失敗する状況は何か、そしてその理由は何か?

主な発見

  • サブワード符号化を用いたラティスLSTMは、4つのCWSベンチマークで最先端または競争力のある性能を達成し、語ベースのモデルの結果と同等またはそれを上回る。
  • MSRおよびWeiboデータセットにおいて、語カバレッジが低いにもかかわらず、サブワード符号化を用いたラティスLSTMは語ベースのモデルを上回る性能を示し、サブワード埋め込みの低カバレッジ状況におけるロバストネスを示している。
  • 制御実験の結果、語彙由来情報の貢献度が事前学習された埋め込みの貢献度を上回ることが判明し、ドメイン特化語彙の重要性が強調された。
  • サブワード/語カバレッジが高くなるほど、性能向上が顕著に現れ、PKU/MSRデータセットで90%以上のカバレッジを達成した場合、顕著な誤差低減が見られた。
  • ケーススタディーでは、ゲート制御メカニズムは有効であるが、万能ではないことが判明した:語ベースモデルは「性日」のようなノイズの多い一致で誤りを起こすが、サブワードモデルは重要なサブワードが欠落している、または曖昧な場合に失敗する。
  • ラティスLSTM構造は、カバレッジと埋め込み品質の両方が高い状況で最も効果的であり、ドメイン特化語彙を用いたクロスドメインのシーケンスラベル付けにおいて強い可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。