Skip to main content
QUICK REVIEW

[論文レビュー] Abstractive and Extractive Text Summarization using Document Context Vector and Recurrent Neural Networks

Chandra Khatri, Gyanit Singh|arXiv (Cornell University)|Jul 20, 2018
Topic Modeling参考文献 27被引用数 34
ひとこと要約

本稿では、RNNに基づくシーケンス・ツー・シーケンス・モデルを用いて、要約抽出および要約生成の両方の性能を向上させるために、文書コンテキストベクトルの新規アプローチを提案する。エンコーダーの最初のタイムステップで、ユーザ行動および売り手データからのコンテキスト情報を注入することで、文書に特化した、人間が好む要約を生成する。特に、大規模な準教師あり近似要約で訓練した場合、eBay製品説明データ上で最先端の性能を達成した。

ABSTRACT

Sequence to sequence (Seq2Seq) learning has recently been used for abstractive and extractive summarization. In current study, Seq2Seq models have been used for eBay product description summarization. We propose a novel Document-Context based Seq2Seq models using RNNs for abstractive and extractive summarizations. Intuitively, this is similar to humans reading the title, abstract or any other contextual information before reading the document. This gives humans a high-level idea of what the document is about. We use this idea and propose that Seq2Seq models should be started with contextual information at the first time-step of the input to obtain better summaries. In this manner, the output summaries are more document centric, than being generic, overcoming one of the major hurdles of using generative models. We generate document-context from user-behavior and seller provided information. We train and evaluate our models on human-extracted-golden-summaries. The document-contextual Seq2Seq models outperform standard Seq2Seq models. Moreover, generating human extracted summaries is prohibitively expensive to scale, we therefore propose a semi-supervised technique for extracting approximate summaries and using it for training Seq2Seq models at scale. Semi-supervised models are evaluated against human extracted summaries and are found to be of similar efficacy. We provide side by side comparison for abstractive and extractive summarizers (contextual and non-contextual) on same evaluation dataset. Overall, we provide methodologies to use and evaluate the proposed techniques for large document summarization. Furthermore, we found these techniques to be highly effective, which is not the case with existing techniques.

研究の動機と目的

  • RNNに基づくシーケンス・ツー・シーケンス・モデルに文書コンテキストを組み込むことで、要約抽出および要約生成の両方の性能を向上させること。
  • 人間によるアノテーション要約のスケーラビリティの課題に対処し、スケールで近似要約を生成するための準教師あり手法を提案すること。
  • 文書にコンテキストを組み込んだRNNが、要約抽出および要約生成の両タスクにおいて、非コンテキストベースのベースラインを上回ることを示すこと。
  • 大規模な準教師あり学習データが、ゴールデンスタンダードの人間アノテート評価においてモデル性能を向上させることを検証すること。
  • 文書に特化したコンテキストを組み込んだRNNが、一般化された生成モデルと比較して、より文書中心的で人間が好む要約を生成できることを示すこと。

提案手法

  • モデルは、ユーザ行動および売り手が提供するメタデータから得られる文書コンテキストベクトルを、エンコーダーRNNの隠れ状態を初期化する際に最初のタイムステップで使用する。
  • 文書コンテキストベクトルは、補助情報からの意味的およびトピック信号を捉える共同表現モデルを通じて学習される。
  • 準教師あり学習では、事前に訓練されたRNNモデルからの文書の尤度スコアに基づく弱教師ありアプローチを用いて、近似要約を自動抽出する。
  • 要約抽出モデルは、自動音声認識のインスピレーションを受けて、候補文をRNN言語モデル下での尤度で順位付けする再順位付け戦略を採用する。
  • 要約抽出および要約生成の両モデルは、アテンション機構を備えたシーケンス・ツー・シーケンス学習で訓練され、コンテキストベクトルがエンコーダーの最初のタイムステップに注入される。
  • 評価は、ホールドアウトされた人間アノテート要約セットに対して実施され、ROUGE、BLEU、NDCG、MAPなどの指標が用いられる。

実験結果

リサーチクエスチョン

  • RQ1エンコーダーの最初のタイムステップに文書コンテキストを注入することで、生成要約の質および関連性が向上するか?
  • RQ2大規模な準教師あり近似要約で訓練すると、小規模な人間アノテートデータセットで訓練する場合に比べて性能が向上するか?
  • RQ3文書にコンテキストを組み込んだRNNは、非コンテキストRNNと比較して、要約抽出および要約生成タスクでどのように性能を発揮するか?
  • RQ4要約生成用RNNを効果的に要約抽出に適応させることができ、専用の要約抽出モデルを上回る性能を発揮するか?
  • RQ5大規模な準教師ありデータによる性能向上が、近似要約に含まれるノイズを相殺するのに十分か?

主な発見

  • 要約抽出コンテキストRNN(EC-RNN)は、5,000件の人工的評価済みテストセットで99.41%の正確度および99.54%のFスコアを達成し、非コンテキストモデルを上回った。
  • 要約生成コンテキストRNN(AC-RNN)は、準教師あり学習でROUGE-L F1スコア0.26およびBLEUスコア0.021を達成し、大規模データでの強力な性能を示した。
  • EC-RNNはNDCG@1が0.655、MAP@3が0.167を達成し、要約抽出における優れた順位付け品質を示した。
  • 10万件のアルゴリズム的ラベル付け要約で訓練された準教師ありモデルは、5,000件の人工アノテート要約で訓練された教師ありモデルと同等またはそれを上回る性能を示した。
  • 文書コンテキストを組み込んだRNNは、すべての指標で非コンテキストRNNを顕著に上回り、文書コンテキストが要約の関連性向上に寄与することを示した。
  • 大規模データとコンテキスト注入を組み合わせた要約生成モデル(AC-RNN)は、ROUGE-L F1スコア0.23を達成し、データスケールおよびコンテキスト注入による性能向上が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。