[論文レビュー] CTRLsum: Towards Generic Controllable Text Summarization
CTRLsum は、 controllable な要約を実現する統一フレームワークを、コントロールトークン(キーワードとプロンプト)を用いて内容、長さ、エンティティ、貢献、発明目的、そして質問ガイド付き要約を指示し、複数ドメインで良好に機能し、CNN/DailyMail における uncontrolled settings で最先端の結果を達成します。
Current summarization systems yield generic summaries that are disconnected from users' preferences and expectations. To address this limitation, we present CTRLsum, a novel framework for controllable summarization. Our approach enables users to control multiple aspects of generated summaries by interacting with the summarization system through textual input in the form of a set of keywords or descriptive prompts. Using a single unified model, CTRLsum is able to achieve a broad scope of summary manipulation at inference time without requiring additional human annotations or pre-defining a set of control aspects during training. We quantitatively demonstrate the effectiveness of our approach on three domains of summarization datasets and five control aspects: 1) entity-centric and 2) length-controllable summarization, 3) contribution summarization on scientific papers, 4) invention purpose summarization on patent filings, and 5) question-guided summarization on news articles in a reading comprehension setting. Moreover, when used in a standard, uncontrolled summarization setting, CTRLsum achieves state-of-the-art results on the CNN/DailyMail dataset. Code and model checkpoints are available at https://github.com/salesforce/ctrl-sum
研究の動機と目的
- ユーザーの好みとタスクを反映した要約の必要性を動機づける。
- コントロールトークンを用いた統一的な可制御要約フレームワークを提案する。
- 追加の学習アノテーションなしで、ドメイン横断かつ複数の制御要素に対して柔軟性を示す。
提案手法
- 事前学習済み BART モデルを p(y|x,z) をモデル化するよう微調整する。ここで z はコントロールトークン(キーワードおよび任意のプロンプト)である。
- 訓練データから ROUGE と参照との最大一致を持つ文を選択し、最長の一致サブシーケンスを抽出してキーワードを抽出することで、訓練時にキーワードドロップアウトを適用する。
- テスト時には BERT ベースのシーケンスタグ付け器を用いて入力文書からキーワードを抽出し、コントロール信号を構築する。
- 訓練時にはソース文書にキーワード列をセパレータ付きで先頭付加する;推論時にはユーザー提供のキーワードと任意のプロンプトをコントロールトークンとして結合する。
- 五つのコントロール要素を調査する:実体中心の要約、長さの制御性、科学論文の貢献の要約、特許の発明目的の要約、質問ガイド付き(読解)要約。
- ROUGE、BERTScore、ヒューマン評価で評価し、BART や LengthCode を含む強力なベースラインと比較する;CNN/DailyMail の非統制パフォーマンスと最先端状態を調査する。
実験結果
リサーチクエスチョン
- RQ1CTRLsum は、実体を特定して要約を導く際に事実的一貫性を維持できるか?
- RQ2キーワードやプロンプトを通じて要約長を制御できるか、オラクルと自動キーワードでの性能の違いはどうか?
- RQ3CTRLsum は科学論文の貢献を簡潔に、特許の発明目的を簡潔に要約できるか?
- RQ4質問キーワードを用いたプロンプティングにより、ゼロショットの読解問題解決型要約が可能か?
- RQ5非統制設定における CTRLsum の性能は、最先端ベースラインと比べてどうか?
主な発見
- CTRLsum は CNNDM で高い実体制御成功率を達成し、ユーザー提供実体を条件としても事実的正確性が高い。
- 長さガイド付きキーワードを用いると、要約の長さの制御が有意義に機能し、入力長信号と相関し、長さ制御指標でいくつかのベースラインを上回る。
- プロンプトとキーワードを組み合わせると、焦点を絞った貢献と特許の発明目的の要約が、プロンプトのみのベースラインより改善される;ROUGEとBERTScore の評価により恩恵が示される。
- 質問キーワードを用いたゼロショット読解設定で、NewsQA と SQuAD の F1 スコアが BART および GPT2 のベースラインに対して実質的に向上し、いくつかのタスクで教師付きモデルに近づく。
- CTRLsum は非統制 CNN/DailyMail 要約で最先端のパフォーマンスを達成し、arXiv および BIGPATENT データセットでも強力なベースラインと競合する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。