QUICK REVIEW

[論文レビュー] Actor-Critic based Training Framework for Abstractive Summarization

Piji Li, Lidong Bing|arXiv (Cornell University)|Mar 28, 2018

Topic Modeling参考文献 31被引用数 46

ひとこと要約

本論文は、ニューラル要約のための actor-critic 学習フレームワーク（AC-ABS）を提案し、seq2seq アクターと最大対数尤度クリティック、グローバル品質判別器を組み合わせ、ROUGE の性能を複数言語で向上させるために交互訓練を行う。

ABSTRACT

We present a training framework for neural abstractive summarization based on actor-critic approaches from reinforcement learning. In the traditional neural network based methods, the objective is only to maximize the likelihood of the predicted summaries, no other assessment constraints are considered, which may generate low-quality summaries or even incorrect sentences. To alleviate this problem, we employ an actor-critic framework to enhance the training procedure. For the actor, we employ the typical attention based sequence-to-sequence (seq2seq) framework as the policy network for summary generation. For the critic, we combine the maximum likelihood estimator with a well designed global summary quality estimator which is a neural network based binary classifier aiming to make the generated summaries indistinguishable from the human-written ones. Policy gradient method is used to conduct the parameter learning. An alternating training strategy is proposed to conduct the joint training of the actor and critic models. Extensive experiments on some benchmark datasets in different languages show that our framework achieves improvements over the state-of-the-art methods.

研究の動機と目的

ニューラル要約の訓練を純粋な尤度最適化を超えて動機付け、低品質な出力（繰り返し、ノイズの多いトークン、OOV）を削減する。
アクターが注意機構を備えた seq2seq モデルで、クリティックが品質信号を提供するアクター-クリティックフレームワークを導入する。
アクターとクリティックを交互に訓練することが、 multilingual ベンチマークで標準訓練より優れた性能を示すことを示す。

提案手法

ポリシーネットワークとして注意機構を有する seq2seq アクターを採用する（エンコーダ：双方向GRU、デコーダ：グローバル注意付きの二層GRU）。
Critic I は負の対数尤度（MLE）を価値関数として使用し、標準的な監視型の更新を導く。
Critic II はグローバル要約品質推定器（バイナリ分類器）を導入し、生成要約と人間の参照を識別して、報酬として V_phi に基づく REINFORCE を介して方針を導く。
X と Y（正解）の表現と生成された Y を比較するバイナリ識別器 V_phi を用いて報酬信号を出力する。
Critic I で事前訓練した後、Critic I と Critic II の交互更新を行い、Critic II は毎 K3 ステップごとに更新するという交互戦略でアクターとクリティックを訓練する。
方針勾配（REINFORCE）を用いて Critic II の報酬をアクターへ伝搬する。クリティックは勾配ベースの更新（Critic I は NLL、Critic II はクロスエントロピー）で学習される。）

実験結果

リサーチクエスチョン

RQ1従来の最大尤度訓練を超える形で、アクター-クリティック訓練は要約の品質を改善できるか。
RQ2グローバル要約品質判別器を組み込むことで、生成要約の繰り返しやノイズの多い出力の問題を緩和できるか。
RQ3アクターとクリティックの交互訓練は、共同訓練や素の seq2seq 訓練よりも安定的で効果的か。
RQ4AC-ABS は英語 Gigawords、DUC-2004、中国語 LCSTS データセットにおいて ROUGE 指標の観点でどの程度性能を示すか。

主な発見

R-1	R-2	R-L
ABS	29.55	11.32	26.42
ABS+	29.78	11.89	26.97
RAS-LSTM	32.55	14.70	30.03
RAS-Elman	33.78	15.97	31.15
ASC-FSC 1	34.17	15.94	31.92
lvt2k-1sent	32.67	15.59	30.64
lvt5k-1sent	35.30	16.64	32.62
GBN	35.26	17.22	32.67
AC-ABS	36.05	17.35	33.49
TOPIARY	25.12	6.46	20.12
MOSES+	26.50	8.13	22.85
ABS	26.55	7.06	22.05
ABS+	28.18	8.49	23.81
RAS-Elman	28.97	8.26	24.06
RAS-LSTM	27.41	7.69	23.06
LenEmb	26.73	8.39	23.88
lvt2k-1sen	28.35	9.46	24.59
lvt5k-1sen	28.61	9.42	25.24
SEASS	29.21	9.56	25.51
DRGD	28.99	9.72	25.28
AC-ABS	29.41	9.84	25.85
RNN	21.50	8.90	18.60
RNN-context	29.90	17.40	27.20
CopyNet	34.40	21.60	31.30
RNN-distract	35.20	22.60	32.50
DRGD	36.99	24.15	34.21
AC-ABS	37.51	24.68	35.02

AC-ABS は Gigawords の報告された指標（R-1、R-2、R-L）で最良の ROUGE スコアを達成しており、ABS、ABS+、RAS-LSTM、RAS-Elman、ASC-FSC などのベースラインを上回る。
Gigawords では AC-ABS は R-1: 36.05，R-2: 17.35，R-L: 33.49 を達成し、列挙されたベースラインを上回る。
DUC-2004 では AC-ABS は ROUGE-Recall の R-1: 29.41、R-2: 9.84、R-L: 25.85 を達成し、いくつかの競合システムを凌駕する。
LCSTS では AC-ABS は ROUGE-F1 の R-1: 37.51、R-2: 24.68、R-L: 35.02 を達成し、比較手法の中で最良となる。
訓練分析は、標準的な seq2seq 訓練に対する交互の actor-critic 戦略を用いると収束が早まり、ROUGE 指標が向上することを示す。
Critic II は訓練中に非常に小さな損失を達成し、生成と正解の要約の識別が効果的で、学習を安定化させていることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。