Skip to main content
QUICK REVIEW

[論文レビュー] Neural Language Modeling by Jointly Learning Syntax and Lexicon

Yikang Shen, Zhouhan Lin|arXiv (Cornell University)|Nov 2, 2017
Topic Modeling参考文献 50被引用数 22
ひとこと要約

本稿では、人為的アノテーションのないテキストから構文構造と語彙表現を同時に学習できる微分可能ニューラル言語モデルであるParsing-Reading-Predict Networks (PRPN) を提案する。言語モデル損失からニューラルパーサー・ネットワークへのエンドツーエンドのバックプロパゲーションを可能にすることで、PRPNは単語レベルおよび文字レベルの言語モデル化において最先端の性能を達成し、強い自己教師付き構文成分解析性能を示しており、学習された構文構造が人為的アノテーション木と密接に一致していることを示している。

ABSTRACT

We propose a neural language model capable of unsupervised syntactic structure induction. The model leverages the structure information to form better semantic representations and better language modeling. Standard recurrent neural networks are limited by their structure and fail to efficiently use syntactic information. On the other hand, tree-structured recursive networks usually require additional structural supervision at the cost of human expert annotation. In this paper, We propose a novel neural language model, called the Parsing-Reading-Predict Networks (PRPN), that can simultaneously induce the syntactic structure from unannotated sentences and leverage the inferred structure to learn a better language model. In our model, the gradient can be directly back-propagated from the language model loss into the neural parsing network. Experiments show that the proposed model can discover the underlying syntactic structure and achieve state-of-the-art performance on word/character-level language model tasks.

研究の動機と目的

  • 人為的アノテーション付きツリー銀行を必要とせずに、未アノテートテキストから構文構造を誘導できるニューラル言語モデルの開発。
  • 表現学習プロセスに自己教師付き構文構造を統合することで、言語モデル化性能の向上。
  • 言語モデル化目的からニューラルパーサー部へ勾配のバックプロパゲーションを可能にし、構造誘導と言語モデル化の共同最適化を実現。
  • 誘導された構文構造が意味的に意味を持つものであり、人為的アノテーション付き解析と同等かどうかの評価。

提案手法

  • モデルは、連続する語のペア間の構文的距離を計算するための畳み込みネットワークに基づく微分可能ニューラルパーサー・ネットワークを用い、ソフトな構成素決定を可能にする。
  • リーディング・ネットワークは、構文的に関連する以前のトークンに注目することで、適応的なメモリ表現を計算し、構文に配慮したアテンションによってスイッチ接続を制御する。
  • 予測ネットワークは、構文的に関連するすべての以前の表現に基づいて次のトークンを生成し、同一の構文に配慮したアテンションメカニズムを用いる。
  • 全アーキテクチャはエンドツーエンドのバックプロパゲーションにより訓練され、言語モデル損失からパーサー・ネットワークへ勾配が流れ込み、共同最適化が可能になる。
  • パーサー・ネットワークは、学習された構文的距離に基づいてトークンを再帰的に組み合わせることで二分木を生成し、アテンションゲートが表現の合成を制御する。
  • モデルは、PTB や WSJ10 などの標準ベンチマークを用いて、単語レベルおよび文字レベルの言語モデル化、および自己教師付き構文成分解析の評価が行われる。

実験結果

リサーチクエスチョン

  • RQ1人為的アノテーション付きツリー銀行を必要とせずに、ニューラル言語モデルが構文構造を統合的に誘導し、言語モデル化性能を向上させることができるか。
  • RQ2微分可能で自己教師付きの構文構造を組み込むことで、再帰的ネットワークにおける表現学習がどの程度向上するか。
  • RQ3PRPNが誘導した構文構造は、人為的アノテーション付き構文成分解析とどの程度一致するか。
  • RQ4ニューラルパーサー部を介したエンドツーエンドのバックプロパゲーションは、標準的なRNNや教師ありパーサー手法と比較して、より優れた言語モデル化性能をもたらすか。

主な発見

  • PRPNは、Text8 データセットにおいてテストパープレキシティが 81.64 という、単語レベル言語モデル化で最先端またはほぼ最先端の性能を達成した。
  • 文字レベル言語モデル化では、テストパープレキシティが 109.7 に達し、従来の自己教師付きモデルを上回り、教師ありモデルの性能に近づいた。
  • WSJ10 データセットにおける自己教師付き構文成分解析では、ラベルなしF1スコアが 70.02 を達成し、ランダムベースラインを著しく上回り、CCM などの強力な自己教師付きモデルと同等の性能を示した。
  • アブレーションスタディの結果、パーサー・ネットワークを削除すると性能が著しく低下し、構文構造の統合が言語モデル化性能を向上させることを実証的根拠として示した。
  • 誘導されたパースツリーの可視化結果から、モデルは一貫性があり人間が理解しやすい構文構造を学習していることが示され、内部表現が意味的に意味を持つことが示唆された。
  • 予測ヘッドに連続的キャッシュポインタを適用することで、モデルの性能がさらに向上した。これは、アーキテクチャが高度な最適化技術と互換性を持つことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。