Skip to main content
QUICK REVIEW

[論文レビュー] BanditSum: Extractive Summarization as a Contextual Bandit

Yue Dong, Yikang Shen|arXiv (Cornell University)|Sep 25, 2018
Topic Modeling参考文献 30被引用数 24
ひとこと要約

BanditSumは、ROUGEスコアを直接最適化することでヒューリスティックな抽出ラベルを回避する文脈的バンディット強化学習フレームワークを提案する。双方向RNNを用いて文の類似度を割り当て、非復元抽出で要約をサンプリングすることで、特に文書の後半に重要な文が現れる場合に、順序付きラベル付けベースラインと比較してはるかに少ない訓練更新回数で最先端のROUGEスコアを達成する。

ABSTRACT

In this work, we propose a novel method for training neural networks to perform single-document extractive summarization without heuristically-generated extractive labels. We call our approach BanditSum as it treats extractive summarization as a contextual bandit (CB) problem, where the model receives a document to summarize (the context), and chooses a sequence of sentences to include in the summary (the action). A policy gradient reinforcement learning algorithm is used to train the model to select sequences of sentences that maximize ROUGE score. We perform a series of experiments demonstrating that BanditSum is able to achieve ROUGE scores that are better than or comparable to the state-of-the-art for extractive summarization, and converges using significantly fewer update steps than competing approaches. In addition, we show empirically that BanditSum performs significantly better than competing approaches when good summary sentences appear late in the source document.

研究の動機と目的

  • 抽出要約における順序付き二値ラベル付けの限界、特に露出バイアスとヒューリスティックな抽出ラベルへの依存を解消すること。
  • 教師あり事前学習の必要性を排除するため、要約を文脈的バンディット問題として定式化すること。
  • 高品質な要約文が後半に現れる文書において、モデルの性能を向上させること。
  • 大規模な行動空間を持つ完全な強化学習と比較して、探索空間を縮小し、学習を高速化すること。
  • 文の類似度が局所的な順序だけでなく、全体的な文書文脈に依存できるエンドツーエンド学習を可能にすること。

提案手法

  • モデルが文書全体の文脈に基づいて[0,1]の範囲で文の類似度を出力する文脈的バンディット問題として抽出要約を定式化する。
  • 双方向RNNエンコーダを用いて、グローバルな依存関係を捉える文レベルの類似度スコアを生成する。
  • 順序バイアスを回避するため、類似度に基づいて非復元抽出で要約文を選択する戦略を適用する。
  • 生成要約と参照要約間のROUGE F1スコアを最大化するように、方策勾配強化学習を用いてモデルを最適化する。
  • 抽出ラベルを一切使用せず、抽象的参照要約のみを用いてエンドツーエンドで学習する。ヒューリスティックラベルへの依存を排除する。
  • 要約品質を直接最適化するための新規な学習目的を導入し、最終評価指標を直接最適化可能にする。

実験結果

リサーチクエスチョン

  • RQ1ヒューリスティックラベルを一切必要としない文脈的バンディットフレームワークは、順序付き二値ラベル付けを上回る性能を発揮できるか?
  • RQ2提案手法は、既存の強化学習ベースラインと比較して収束が速く、より高いROUGEスコアを達成できるか?
  • RQ3重要な要約文が文書の後半に現れる場合、本手法は順序付きRLモデル(RNESおよびRNES3)と比較してどのように性能を発揮するか?
  • RQ4行動選択における露出バイアスと順序依存性の排除が、要約品質の向上にどの程度寄与するか?
  • RQ5ヒューリスティックな抽出ラベルに対する教師あり事前学習なしで、最先端の性能を達成できるか?

主な発見

  • BanditSumは、抽出ラベルを一切使用せず、標準的な抽出要約ベンチマークで最先端または同等のROUGEスコアを達成した。
  • 他の手法と比較して著しく収束が速く、はるかに少ない更新ステップ数で学習完了が可能であり、サンプル効率の向上が示された。
  • 重要な文が後半に現れるデータセットでは、BanditSumは順序付きRLモデル(RNESおよびRNES3)を大きく上回り、後半に現れる重要なコンテンツの処理が優れていることが示された。
  • 人的評価では、BanditSumの要約は競合モデルと比較して冗長性が低く、全体的な品質が高く評価された。
  • 初期に良い文が現れる場合でも、性能の低下が見られず、初期および後期に現れる重要な文の両方のシナリオで安定した性能を示した。
  • アブレーションスタディにより、ベースラインに対する性能向上は、主に後半に現れる要約にふさわしい文の処理の改善に起因することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。