Skip to main content
QUICK REVIEW

[論文レビュー] AQuaMuSe: Automatically Generating Datasets for Query-Based Multi-Document Summarization

Sayali Kulkarni, Sheide Chammas|arXiv (Cornell University)|Oct 23, 2020
Topic Modeling参考文献 34被引用数 33
ひとこと要約

AQuaMuSe は、質問応答データと大規模ウェブコーパスから qMDS の例を自動的に抽出し、対象を絞ったマルチドキュメント要約を作成します。これにより、抽象的および抽出的 qMDS のための大規模で設定可能なデータセットが得られ、5,519 の例とクエリごとの平均 6 件のソース文書を提供します。

ABSTRACT

Summarization is the task of compressing source document(s) into coherent and succinct passages. This is a valuable tool to present users with concise and accurate sketch of the top ranked documents related to their queries. Query-based multi-document summarization (qMDS) addresses this pervasive need, but the research is severely limited due to lack of training and evaluation datasets as existing single-document and multi-document summarization datasets are inadequate in form and scale. We propose a scalable approach called AQuaMuSe to automatically mine qMDS examples from question answering datasets and large document corpora. Our approach is unique in the sense that it can general a dual dataset -- for extractive and abstractive summaries both. We publicly release a specific instance of an AQuaMuSe dataset with 5,519 query-based summaries, each associated with an average of 6 input documents selected from an index of 355M documents from Common Crawl. Extensive evaluation of the dataset along with baseline summarization model experiments are provided.

研究の動機と目的

  • 訓練と評価のための大規模で高品質な qMDS データの必要性を喚起する。
  • QA データセットとウェブコーパスから qMDS データセットを構築する、拡張可能で自動的な方法を提案する。
  • qMDS の抽象型と抽出型の両方のターゲットを含むデータセットの一例を提供する。
  • 人間の評価とベースラインモデルの実験を通じてデータセットの品質を示す。

提案手法

  • 長文回答とウェブのパッセージ間の意味的類似性を測定するために Universal Sentence Encoder を用いて文をエンコードする。
  • 相似性閾値を用いた回答文と大規模ウェブコーパス(Common Crawl)との最近傍マッチングにより候補入力文書を選択する。
  • 多様性とトピカル性を制御する tunable 閾値を用いて top-K 文書集合(K=7)を構築する。
  • 一致したパッセージ R から長文回答 a を統合して抽象的 qMDS の例を作成し、非抽出的生成を可能にする。
  • 一致した文をターゲット回答にその場で置換して抽出的 qMDS の例を作成する。
  • カバレッジ、密度、要約 recalls(0.75 に上限)、文書品質などのデータセット特性を評価し、ベースラインモデルの実験を行う。

実験結果

リサーチクエスチョン

  • RQ1QA データとウェブコーパスから大規模な qMDS データセットを自動的に生成する方法はどのようにあるか。
  • RQ2このような自動生成データは抽象的 qMDS と抽出的 qMDS の両方を支援できるか。
  • RQ3得られたデータセットの品質特性(カバレッジ、流暢さ、関連性)はどのようであり、ベースラインモデルはそれに対してどう性能を示すか。
  • RQ4データセット構築の選択(閾値、K)は入力の多様性と関連性にどのような影響を及ぼすか。

主な発見

  • 著者らは 5,519 の qMDS の例を生成する(訓練 4,555; 開発 440; テスト 524)これらの例は平均で 6 の入力文書を持つ。
  • データセットは大規模な Common Crawl ベース(355M ページ)とターゲット要約として Google Natural Questions のサブセットを使用している。
  • abstractive な例の 85.18% が semantic correctness タスクで多数派により関連性があると評価される。
  • fluency の面では、置換された一致文を含む抽出的なパッセージの 96.20% が評価者により肯定的と評価され、困惑度は 80 から 82 にわずかに上昇した。
  • 要約 Recall は 0.75 に制限されており、現実的な難易度を確保しつつターゲット要約の再構成性を維持している。
  • クエリ非依存およびクエリ依存の条件でのベースラインの抽象的モデル(Hi-MAP、PEGASUS)と抽出ベースライン(NeuSum、TextRank)を評価し、ヘッドルームとクエリ条件付けの影響を評価した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。