[論文レビュー] Neural Summarization by Extracting Sentences and Words
データ駆動のエンコーダ–エクストラクタフレームワークを用いた単一文書要約で、ニューラルネットワークと階層表現を使い、日刊メール由来の大規模データセットで学習すると、文または語を抽出できる。
Traditional approaches to extractive summarization rely heavily on human-engineered features. In this work we propose a data-driven approach based on neural networks and continuous sentence features. We develop a general framework for single-document summarization composed of a hierarchical document encoder and an attention-based extractor. This architecture allows us to develop different classes of summarization models which can extract sentences or words. We train our models on large scale corpora containing hundreds of thousands of document-summary pairs. Experimental results on two summarization datasets demonstrate that our models obtain results comparable to the state of the art without any access to linguistic annotation.
研究の動機と目的
- デ手工書式の特徴量を用いず、データ駆動型抽出型要約を動機づける。
- 文書の階層的ニューラルエンコーダと文または語の注意ベースのエクストラクタを提案する。
- ニューラル抽出型および抽出生成型要約が標準ベンチマークで最先端システムに匹敵するか、あるいは近づくことを示す。
- DailyMailのハイライトから自動ラベル付けされた大規模データセットでの学習を実証する。
提案手法
- 階層的な文書リーダーを使用する:最大値プーリングを伴う畳み込み文エンコーダで文ベクトルを生成し、文ベクトル上でLSTMベースの文書エンコーダを適用する。
- エンコーダとエクストラクタの隠れ状態を用いた文へのアテンション駆動ラベリングを用いる文抽出器を導入し、訓練/テストの不一致を緩和するカリキュラム学習を適用する。
- 文書からの語彙に限定した生成を行う語抽出器を開発し、階層的アテンションを使って入力内容から次語を選択する。
- DailyMailからの2つの大規模データセットを作成する:ハイライトとの重なりが高い文をラベル付けして文抽出データセットを、ハイライト語と記事内容を照合して語抽出データセットを(OOV語の置換を含む)作成する。
- DUC-2002およびDailyMailのテストセットでROUGEを用いて評価し、人間の判断も併用する。ベースライン(Lead、LReg、ILP、TGraph、URank)および抽象基準との比較を行う。
実験結果
リサーチクエスチョン
- RQ1 linguistic annotationsを用いずに、ニューラルエンコーダ–エクストラクタアーキテクチャは文レベルの抽出型要約を効果的に実行できるか?
- RQ2ドキュメント語彙に制約を設けた生成型デコーダを用いて語レベルの抽出へ拡張できるか?
- RQ3ニューラル文抽出と語抽出モデルは、従来の特徴ベースおよびグラフ/ILPベースの手法と標準ベンチマークでどのように比較されるか?
- RQ4トレーニングデータのサイズと品質(大規模日刊メール由来コーパス)による性能への影響は、小規模で注釈付きデータセットと比べてどうか?
- RQ5階層表現(文CNNエンコーダ+文書レベルRNN)は顕著性検出と要約の一貫性を向上させるか?
主な発見
| モデル | Rouge-1 | Rouge-2 | Rouge-L |
|---|---|---|---|
| DUC-2002 Lead | 43.6 | 21.0 | 40.2 |
| DUC-2002 ILP | 45.4 | 21.3 | 42.8 |
| DUC-2002 nn-se (sentence extraction) | 47.4 | 23.0 | 43.5 |
| DUC-2002 nn-we (word extraction) | 27.0 | 7.9 | 22.8 |
| DUC-2002 nn-abs (neural abstractive) | 15.8 | 5.2 | 13.8 |
| DUC-2002 tgraph | 48.1 | 24.3 | — |
| DUC-2002 urank | 48.5 | 21.5 | — |
| DailyMail Lead | 20.4 | 7.7 | 11.4 |
| DailyMail lreg | 18.5 | 6.9 | 10.2 |
| DailyMail nn-abs | 7.8 | 1.7 | 7.1 |
| DailyMail nn-se | 21.2 | 8.3 | 12.0 |
| DailyMail nn-we | 15.7 | 6.4 | 9.8 |
- 文抽出モデル nn-se は DUC-2002 で競争的な Rouge スコアを達成し、いくつかのベースラインを上回り、最先端からは離れていない(言語的特徴なし)。
- 語抽出モデル nn-we は一貫して抽象的基準を上回り、固有名詞や希少語に対してはソース文からのコピーにより頑健性を示す。
- ニューラル抽出器(nn-se と nn-we)は、DUC-2002 で強力なベースライン(Lead、LReg、ILP、TGraph、URank)を一般的に上回るか、密接に一致する; DailyMail では nn-se が Rouge 指標全体で最も強い。
- 人間の評価では nn-se が上位に位置し、Lead やいくつかのベースラインに対して有意な優位性があり、人間の gold 標準に近い。
- オープン語彙の抽象モデル nn-abs は、制限語彙の抽出語モデル nn-we より性能が劣る。正確さと一貫性のためには restricted-vocabulary 抽出の利点が示される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。