[論文レビュー] On Extractive and Abstractive Neural Document Summarization with Transformer Language Models
本稿では、変換器言語モデルを用いた長文文書の要約のための2段階的手順を提案する。抽出的文選択が生成的生成を条件づける。文書と抽出された重要な文を両方の入力としてモデルに供給することで、コピー機構に依存する従来手法よりも高いROUGEスコアとより生成的(抽象的)な出力を達成し、過剰なコピーを低減するとともに要約品質を向上させる。
We present a method to produce abstractive summaries of long documents that exceed several thousand words via neural abstractive summarization. We perform a simple extractive step before generating a summary, which is then used to condition the transformer language model on relevant information before being tasked with generating a summary. We show that this extractive step significantly improves summarization results. We also show that this approach produces more abstractive summaries compared to prior work that employs a copy mechanism while still achieving higher rouge scores. Note: The abstract above was not written by the authors, it was generated by one of the models presented in this paper.
研究の動機と目的
- シーケンス・トゥ・シーケンスモデルを超えて、長文書(例:科学論文、特許)の生成的要約を改善すること。
- 抽出的要約に似た出力を生じるコピー機構への依存を低減し、真の生成的要約を促進すること。
- 単一の変換器言語モデルを、文書全体と抽出された重要な文の両方の入力として条件づけることで、要約品質が向上することを示すこと。
- このアプローチが、ROUGEスコアにおいて従来手法を上回るとともに、より言い換えられ、コピーされた部分が少ない要約を生成することを示すこと。
提案手法
- 抽出的ステップでは、ポインタネットまたは文分類器を用いて、長文書から重要な文を特定する。
- 抽出された文は、文書の序論と残りの本文と組み合わせられ、固定された順序形式(序論、抽出文、要約、残りの本文)に並べられる。
- この構造化された入出力形式で、GPT風の変換器言語モデルを微調整し、要約を生成する。
- 推論段階では、最終的な生成的要約を生成するために、モデルは序論と抽出された文のみに条件づけられる。
- モデルは、文書全体とその重要な内容を含む全コンテキストを活用して、参照要約を自己回帰的に予測するように学習される。
- 明示的なエンコーダ・デコーダアーキテクチャを避ける代わりに、統一された自己回帰的言語モデル設定を採用する。
実験結果
リサーチクエスチョン
- RQ1専用のエンコーダ・デコーダ構造を持たない単一の自己回帰的変換器言語モデルは、長文書の高品質な生成的要約を生成できるか?
- RQ2抽出された重要な文に条件づけられた生成的生成は、直接的な入力条件づけと比較して、要約品質と生成的性質を向上させるか?
- RQ3この手法は、コピー機構を用いるモデルと比較して、元のテキストからのコピー依存度をどの程度低減するか?
- RQ4ROUGEスコアと要約の生成的品質という観点から、本手法は従来の抽出的・生成的モデルと比較してどのように差をつけるか?
- RQ5この2段階の抽出的・生成的フレームワークは、科学論文、医療要約、特許など多様な分野に効果的に適用可能か?
主な発見
- 本手法は、arXiv、PubMed、bigPatentデータセットにおいて、従来の抽出的・生成的モデルよりも高いROUGEスコアを達成した。
- 抽出された文に条件づけられたモデルはコピーを低減した:生成された要約の20-gramのうち10%しか元の記事に存在しなかったのに対し、コピー機構を用いるモデルでは10%以上がコピーされていた。
- 5-gramについて、約2/3のコピーされたn-gramが抽出された文から来ていることから、抽出ステップが生成的生成に強力で集中したコンテキストを提供していることが示された。
- コピー機構に依存する従来の手法と比較して、本モデルはより生成的な要約を生成しており、元のテキストとのn-gramオーバーラップが低く、言い換え能力が優れていることが裏付けられた。
- 抽出ステップは要約結果を顕著に改善し、ROUGEスコアと人間評価指標の両方で明確な正の影響が測定された。
- 本手法は分野を問わず堅牢であり、科学的論文、生物医学的テキスト、特許において優れた性能を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。