QUICK REVIEW

[論文レビュー] A Sentence Compression Based Framework to Query-Focused Multi-Document Summarization

Lu Wang, Hema Raghavan|arXiv (Cornell University)|Jun 24, 2016

Natural Language Processing Techniques参考文献 42被引用数 99

ひとこと要約

本論文は、クエリに焦点を当てたマルチドキュメント要約のための文圧縮ベースのフレームワークを提示し、ビームサーチデコーダとタスク固有のマルチスコアラーを用いて、DUCデータセット上の抽出ベースを上回る、ルールベース、シーケンスベース、ツリーベースの圧縮手法を導入しています。

ABSTRACT

We consider the problem of using sentence compression techniques to facilitate query-focused multi-document summarization. We present a sentence-compression-based framework for the task, and design a series of learning-based compression models built on parse trees. An innovative beam search decoder is proposed to efficiently find highly probable compressions. Under this framework, we show how to integrate various indicative metrics such as linguistic motivation and query relevance into the compression process by deriving a novel formulation of a compression scoring function. Our best model achieves statistically significant improvement over the state-of-the-art systems on several metrics (e.g. 8.0% and 5.4% improvements in ROUGE-2 respectively) for the DUC 2006 and 2007 summarization task.

研究の動機と目的

クエリに焦点を当てたマルチドキュメント要約を改善するために、文圧縮の利用を動機づける。
文法性とクエリに関連する内容を保持する、学習に基づく圧縮モデル（ルールベース、シーケンスベース、ツリーベース）を開発する。
言語的特徴、関連性、冗長性、言語品質の信号を統合した統一的な圧縮スコアリングフレームワークを構築する。
DUC 2006 および 2007 でアプローチを評価し、最先端の抽出系を上回る改善を示す。

提案手法

三段階のフレームワークを提案する：文のランキング、文の圧縮、ポスト処理。
クエリ関連性、内容の重要性、言語的手がかりを含む特徴量を用いた学習-と-ランク手法（LambdaMART）で文をランク付けする。
3つの圧縮パラダイムを実装する：ルールベース、シーケンスベース（BIOラベリングを用いるCRF）、木構造ベース（パース木の成分ラベリング）と、ビームサーチデコーダ。
Basic compression scoreにクエリ関連性、内容重要度（SumBasic）、言語モデル尤度、句間の冗長性を組み合わせるマルチスコアラーを導入して圧縮を導く。
予測子の有用性と文法性を高めるため、文脈認識型およびヘッド駆動型の変化を用いたビームサーチを強化する。
圧縮出力の流暢さを維持するために Gigaword 言語モデルスコアリングとパーシングベースの言語モデルを用いて評価する。

実験結果

リサーチクエスチョン

RQ1学習ベースの文圧縮は、抽出だけと比較してクエリ焦点のマルチドキュメント要約の品質を向上させるか。
RQ2ルールベース、シーケンスベース、ツリーベースの圧縮アプローチは、クエリ焦点のMDSのために、簡潔でありながら情報量の多い要約を作成する際にどのように比較されるか。
RQ3クエリ関連性、冗長性最小化、言語品質を圧縮スコアリング関数に組み込むと、測定可能な利得が得られるか。
RQ4文脈認識型およびヘッド駆動型ビームサーチ戦略が圧縮性能と要約品質に与える影響はどの程度か。

主な発見

すべての圧縮ベースモデルは、ROUGEベースの指標で、DUC 2006 の最良の抽出システムに統計的に有意な改善を達成した。
最良のモデル（Head-driven beam search with Multi-scorer）は、DUC 2006 および 2007 の報告されたシステムの中で ROUGE-2 (R-2) および ROUGE-SU4 (R-SU4) スコアが最も高く、抽出ベースを顕著に上回る。
この手法は冗長性を低減し、以前のシステムと比べて Pyramid 内容の捕捉を高めるが、パースエラーに起因する文法的問題が時折生じる。
文脈認識型およびヘッド駆動型のツリーベース圧縮は、他の圧縮手法よりも精度で上回りながら再現率を維持しており、文法的信頼性と内容選択の改善を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。