QUICK REVIEW

[論文レビュー] Generating Text from Structured Data with Application to the Biography Domain.

Rémi Lebret, David Grangier|arXiv (Cornell University)|Mar 24, 2016

Topic Modeling参考文献 39被引用数 34

ひとこと要約

この論文では、固定語彙とコピーメカニズムを組み合わせることで、大規模で多様な人物関連データセットを扱えるニューラルコンセプトからテキスト生成モデルを提案する。40万語の語彙を有する70万件の多様な人物関連データセット（Wikipediaベース）において、古典的Kneser-Ney言語モデルよりも15 BLEUポイントの向上を達成した。

ABSTRACT

This paper introduces a neural model for concept-to-text generation that scales to large, rich domains. We experiment with a new dataset of biographies from Wikipedia that is an order of magni- tude larger than existing resources with over 700k samples. The dataset is also vastly more diverse with a 400k vocab- ulary, compared to a few hundred words for Weathergov or Robocup. Our model builds upon recent work on conditional neural language model for text genera- tion. To deal with the large vocabulary, we extend these models to mix a fixed vocabulary with copy actions that trans- fer sample-specific words from the in- put database to the generated output sen- tence. Our neural model significantly out- performs a classical Kneser-Ney language model adapted to this task by nearly 15 BLEU.

研究の動機と目的

大規模で構造化された人物関連データから高品質で多様なテキストを生成する課題に対処すること。
小規模でドメイン特化したデータセットにとどまらず、大規模で多様な語彙を有する豊かなドメインにニューラルテキスト生成をスケーリングすること。
リソースが限られた環境や多様性の高いテキスト生成タスクにおいて、古典的言語モデルを上回る生成品質を向上させること。
入力データベースからのドメイン固有語のコピーメカニズムを統合したスケーラブルなニューラルアーキテクチャの開発

提案手法

モデルは、固定語彙とコピーアクションを組み合わせることで、大規模語彙を扱えるように条件付きニューラル言語モデルを拡張する。
コピーアクションにより、サンプル固有の語を入力データベースから直接出力文に転送する。
アーキテクチャは、70万件を超えるサンプルを含む大規模なWikipediaベースの人物関連データセットで訓練される。
出力は構造化された入力特徴に条件づけられるように、注意メカニズムを用いたニューラルシーケンス生成が用いられる。
予測は固定語彙からの生成または入力データからのコピーモードのハイブリッド戦略を採用する。

実験結果

リサーチクエスチョン

RQ1ニューラルテキスト生成モデルは、語彙の豊富さが高い人物関連のような大規模で多様なドメインに、効果的にスケーリング可能か？
RQ2コピーメカニズムを組み込むことで、大規模でドメイン外のデータセットにおける生成品質はどのように向上するか？
RQ3提案されたモデルは、リソースが限られた環境や多様性の高いテキスト生成タスクにおいて、古典的言語モデルをどの程度上回るか？
RQ4大規模で多様なトレーニングデータが、ニューラルテキスト生成のパフォーマンスに及ぼす影響は何か？

主な発見

提案されたニューラルモデルは、同じタスクにおいて古典的Kneser-Ney言語モデルよりも15 BLEUポイントの向上を達成した。
モデルは40万語の語彙を効果的に処理でき、Weathergov や Robocup のような従来のデータセットで一般的な数100語程度の語彙とは顕著に異なる。
コピーメカニズムの活用により、入力データベースからの希少語やドメイン固有の固有名詞の正確な生成が可能になった。
70万件を超えるサンプルを含む大規模で多様な人物関連データセットにおいて、モデルは優れた一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。