QUICK REVIEW

[論文レビュー] Faithful to the Original: Fact Aware Neural Abstractive Summarization

Ziqiang Cao, Furu Wei|arXiv (Cornell University)|Nov 13, 2017

Topic Modeling被引用数 174

ひとこと要約

この論文は、OpenIEと依存解析から抽出した事実説明を使用して忠実性を向上させるデュアルアテンションの要約モデルF TSumを提案し、偽要約の大幅な削減とGigawordでの情報量の向上を達成することを示す。

ABSTRACT

Unlike extractive summarization, abstractive summarization has to fuse different parts of the source text, which inclines to create fake facts. Our preliminary study reveals nearly 30% of the outputs from a state-of-the-art neural summarization system suffer from this problem. While previous abstractive summarization approaches usually focus on the improvement of informativeness, we argue that faithfulness is also a vital prerequisite for a practical abstractive summarization system. To avoid generating fake facts in a summary, we leverage open information extraction and dependency parse technologies to extract actual fact descriptions from the source text. The dual-attention sequence-to-sequence framework is then proposed to force the generation conditioned on both the source text and the extracted fact descriptions. Experiments on the Gigaword benchmark dataset demonstrate that our model can greatly reduce fake summaries by 80%. Notably, the fact descriptions also bring significant improvement on informativeness since they often condense the meaning of the source text.

研究の動機と目的

要約における忠実性の重要性を動機づけ、ニューラル要約における偽の事実の問題を特定する。
ソース文と抽出された事実説明の両方を条件として生成を制御する事実認識型デュアルアテンション系列-to-系列モデル（FTSum）を提案する。
事実説明を組み込むことで偽要約を減らし、標準ベンチマークで情報量を改善することを示す。
事実説明が意味を凝縮し、流暢さを犠牲にすることなく情報量を向上させることを示す。

提案手法

OpenIEのトリプルと依存解析のタプルから事実説明を抽出し、特別なセパレータで連結して事実説明列を形成する。
ソース文と事実説明を別々のBiGRUエンコーダでエンコードして h^x_i と h^r_i の表現を得る。
文と事実説明に対して別々のアテンションコンテキストベクトル c^x_t と c^r_t を計算し、ゲートネットワークで統合してデコード時の c_t を形成する。
統合された文脈に条件付けして要約を生成するデュアルアテンションデコーダ（アテンション付きGRU）を使用し、二つの結合方法：FTSum c（連結）とFTSum g（ゲートベースの加重結合）を提供する。
Adamを用いたground-truth要約の尤度最大化（負の対数尤度損失）を最大化することで訓練し、ドロップアウトや勾配クリッピングなどの標準的な手法を採用する。

実験結果

リサーチクエスチョン

RQ1事実説明を明示的にエンコードすることは abstractive 要約の忠実性を改善するか。
RQ2ソース文と抽出された事実説明のデュアルアテンションは生成要約の偽の事実を減らすか。
RQ3事実説明は Gigaword の情報量とROUGEベースの評価指標にどのように影響するか。
RQ4ゲートベースの融合（FTSum g）と単純な連結（FTSum c）による文脈統合の影響はどうなるか。

主な発見

Model	ROUGE-1	ROUGE-2	ROUGE-L
ABS	29.55	11.32	26.42
ABS+	29.78	11.89	26.97
Feats2s	32.67	15.59	30.64
RAS-Elman	33.78	15.97	31.15
Luong-NMT	33.10	14.45	30.71
s2s+att	34.23	15.52	31.57
FTSum c	35.73	16.02	34.13
FTSum g	37.27	17.65	34.24

FTSum g は開発セットでの最良のパープレキシティ（16.4）を達成し、FTSum c（20.1）を上回った。
FTSum g はベースラインの中で最高のROUGEスコアを示す（RG-1: 37.27, RG-2: 17.65, RG-L: 34.24）。
手動による忠実性評価は FTSum g が偽要約を 6% に抑えるのに対し att-s2s は 27%、FTSum g の出力は 87% が忠実であることを示す。
事実説明は要約へのコピーが元の語より 40% も高く推定され、意味が凝縮されることで情報量の向上を示唆する。
FTSum g のゲート機構は事実説明の影響度を相対的信頼性と一致させ、文-事実ゲート比が約 1.41 付近で 0.415付近に安定する傾向があり、観察されたコピー比と一致する。
FTSum モデルはデータ駆動のみで手作り特徴を用いず、パープレキシティと ROUGE 指標の両方で最先端ベースラインに対して有意な改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。