[論文レビュー] AQuaMuSe: Automatically Generating Datasets for Query-Based Multi-Document Summarization
AQuaMuSe は、質問応答データと大規模ウェブコーパスから qMDS の例を自動的に抽出し、対象を絞ったマルチドキュメント要約を作成します。これにより、抽象的および抽出的 qMDS のための大規模で設定可能なデータセットが得られ、5,519 の例とクエリごとの平均 6 件のソース文書を提供します。
Summarization is the task of compressing source document(s) into coherent and succinct passages. This is a valuable tool to present users with concise and accurate sketch of the top ranked documents related to their queries. Query-based multi-document summarization (qMDS) addresses this pervasive need, but the research is severely limited due to lack of training and evaluation datasets as existing single-document and multi-document summarization datasets are inadequate in form and scale. We propose a scalable approach called AQuaMuSe to automatically mine qMDS examples from question answering datasets and large document corpora. Our approach is unique in the sense that it can general a dual dataset -- for extractive and abstractive summaries both. We publicly release a specific instance of an AQuaMuSe dataset with 5,519 query-based summaries, each associated with an average of 6 input documents selected from an index of 355M documents from Common Crawl. Extensive evaluation of the dataset along with baseline summarization model experiments are provided.
研究の動機と目的
- 訓練と評価のための大規模で高品質な qMDS データの必要性を喚起する。
- QA データセットとウェブコーパスから qMDS データセットを構築する、拡張可能で自動的な方法を提案する。
- qMDS の抽象型と抽出型の両方のターゲットを含むデータセットの一例を提供する。
- 人間の評価とベースラインモデルの実験を通じてデータセットの品質を示す。
提案手法
- 長文回答とウェブのパッセージ間の意味的類似性を測定するために Universal Sentence Encoder を用いて文をエンコードする。
- 相似性閾値を用いた回答文と大規模ウェブコーパス(Common Crawl)との最近傍マッチングにより候補入力文書を選択する。
- 多様性とトピカル性を制御する tunable 閾値を用いて top-K 文書集合(K=7)を構築する。
- 一致したパッセージ R から長文回答 a を統合して抽象的 qMDS の例を作成し、非抽出的生成を可能にする。
- 一致した文をターゲット回答にその場で置換して抽出的 qMDS の例を作成する。
- カバレッジ、密度、要約 recalls(0.75 に上限)、文書品質などのデータセット特性を評価し、ベースラインモデルの実験を行う。
実験結果
リサーチクエスチョン
- RQ1QA データとウェブコーパスから大規模な qMDS データセットを自動的に生成する方法はどのようにあるか。
- RQ2このような自動生成データは抽象的 qMDS と抽出的 qMDS の両方を支援できるか。
- RQ3得られたデータセットの品質特性(カバレッジ、流暢さ、関連性)はどのようであり、ベースラインモデルはそれに対してどう性能を示すか。
- RQ4データセット構築の選択(閾値、K)は入力の多様性と関連性にどのような影響を及ぼすか。
主な発見
- 著者らは 5,519 の qMDS の例を生成する(訓練 4,555; 開発 440; テスト 524)これらの例は平均で 6 の入力文書を持つ。
- データセットは大規模な Common Crawl ベース(355M ページ)とターゲット要約として Google Natural Questions のサブセットを使用している。
- abstractive な例の 85.18% が semantic correctness タスクで多数派により関連性があると評価される。
- fluency の面では、置換された一致文を含む抽出的なパッセージの 96.20% が評価者により肯定的と評価され、困惑度は 80 から 82 にわずかに上昇した。
- 要約 Recall は 0.75 に制限されており、現実的な難易度を確保しつつターゲット要約の再構成性を維持している。
- クエリ非依存およびクエリ依存の条件でのベースラインの抽象的モデル(Hi-MAP、PEGASUS)と抽出ベースライン(NeuSum、TextRank)を評価し、ヘッドルームとクエリ条件付けの影響を評価した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。