QUICK REVIEW

[論文レビュー] AQuaMuSe: Automatically Generating Datasets for Query-Based Multi-Document Summarization

Sayali Kulkarni, Sheide Chammas|arXiv (Cornell University)|Oct 23, 2020

Topic Modeling参考文献 34被引用数 33

ひとこと要約

AQuaMuSe は、質問応答データと大規模ウェブコーパスから qMDS の例を自動的に抽出し、対象を絞ったマルチドキュメント要約を作成します。これにより、抽象的および抽出的 qMDS のための大規模で設定可能なデータセットが得られ、5,519 の例とクエリごとの平均 6 件のソース文書を提供します。

ABSTRACT

Summarization is the task of compressing source document(s) into coherent and succinct passages. This is a valuable tool to present users with concise and accurate sketch of the top ranked documents related to their queries. Query-based multi-document summarization (qMDS) addresses this pervasive need, but the research is severely limited due to lack of training and evaluation datasets as existing single-document and multi-document summarization datasets are inadequate in form and scale. We propose a scalable approach called AQuaMuSe to automatically mine qMDS examples from question answering datasets and large document corpora. Our approach is unique in the sense that it can general a dual dataset -- for extractive and abstractive summaries both. We publicly release a specific instance of an AQuaMuSe dataset with 5,519 query-based summaries, each associated with an average of 6 input documents selected from an index of 355M documents from Common Crawl. Extensive evaluation of the dataset along with baseline summarization model experiments are provided.

研究の動機と目的

訓練と評価のための大規模で高品質な qMDS データの必要性を喚起する。
QA データセットとウェブコーパスから qMDS データセットを構築する、拡張可能で自動的な方法を提案する。
qMDS の抽象型と抽出型の両方のターゲットを含むデータセットの一例を提供する。
人間の評価とベースラインモデルの実験を通じてデータセットの品質を示す。

提案手法

長文回答とウェブのパッセージ間の意味的類似性を測定するために Universal Sentence Encoder を用いて文をエンコードする。
相似性閾値を用いた回答文と大規模ウェブコーパス（Common Crawl）との最近傍マッチングにより候補入力文書を選択する。
多様性とトピカル性を制御する tunable 閾値を用いて top-K 文書集合（K=7）を構築する。
一致したパッセージ R から長文回答 a を統合して抽象的 qMDS の例を作成し、非抽出的生成を可能にする。
一致した文をターゲット回答にその場で置換して抽出的 qMDS の例を作成する。
カバレッジ、密度、要約 recalls（0.75 に上限）、文書品質などのデータセット特性を評価し、ベースラインモデルの実験を行う。

実験結果

リサーチクエスチョン

RQ1QA データとウェブコーパスから大規模な qMDS データセットを自動的に生成する方法はどのようにあるか。
RQ2このような自動生成データは抽象的 qMDS と抽出的 qMDS の両方を支援できるか。
RQ3得られたデータセットの品質特性（カバレッジ、流暢さ、関連性）はどのようであり、ベースラインモデルはそれに対してどう性能を示すか。
RQ4データセット構築の選択（閾値、K）は入力の多様性と関連性にどのような影響を及ぼすか。

主な発見

著者らは 5,519 の qMDS の例を生成する（訓練 4,555; 開発 440; テスト 524）これらの例は平均で 6 の入力文書を持つ。
データセットは大規模な Common Crawl ベース（355M ページ）とターゲット要約として Google Natural Questions のサブセットを使用している。
abstractive な例の 85.18% が semantic correctness タスクで多数派により関連性があると評価される。
fluency の面では、置換された一致文を含む抽出的なパッセージの 96.20% が評価者により肯定的と評価され、困惑度は 80 から 82 にわずかに上昇した。
要約 Recall は 0.75 に制限されており、現実的な難易度を確保しつつターゲット要約の再構成性を維持している。
クエリ非依存およびクエリ依存の条件でのベースラインの抽象的モデル（Hi-MAP、PEGASUS）と抽出ベースライン（NeuSum、TextRank）を評価し、ヘッドルームとクエリ条件付けの影響を評価した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。