QUICK REVIEW

[論文レビュー] SummaC: Re-Visiting NLI-based Models for Inconsistency Detection in Summarization

Philippe Laban, Tobias Schnabel|arXiv (Cornell University)|Nov 18, 2021

Topic Modeling被引用数 39

ひとこと要約

この論文は、入力粒度を文書レベルの不整合と整合させることにより要約のNLIベースの不整合検出を再検討し、SummaC Convと強力な結果を示す標準化されたSummaC Benchmarkを導入します。

ABSTRACT

In the summarization domain, a key requirement for summaries is to be factually consistent with the input document. Previous work has found that natural language inference (NLI) models do not perform competitively when applied to inconsistency detection. In this work, we revisit the use of NLI for inconsistency detection, finding that past work suffered from a mismatch in input granularity between NLI datasets (sentence-level), and inconsistency detection (document level). We provide a highly effective and light-weight method called SummaCConv that enables NLI models to be successfully used for this task by segmenting documents into sentence units and aggregating scores between pairs of sentences. On our newly introduced benchmark called SummaC (Summary Consistency) consisting of six large inconsistency detection datasets, SummaCConv obtains state-of-the-art results with a balanced accuracy of 74.4%, a 5% point improvement compared to prior work. We make the models and datasets available: https://github.com/tingofurro/summac

研究の動機と目的

事実的に一貫した要約が入力文書とともに必要であるという動機。
不整合検出のためにNLIモデルを活用する軽量で粒度認識型のアプローチを提案。
6つの大規模な不整合データセットを横断して総合的なSummaC Benchmarkを標準化・公開。
適切な粒度と集約がNLIベースの不整合検出を改善することを実証。
実務的な不整合検出器のモデル選択と粒度に関するガイダンスを提供。

提案手法

文と要約を文 blockに分割し、それぞれのペアをNLIモデルで評価してNLI Pair Matrixを生成。
2つの集約バリアントを提供：SummaC ZS（零ショット）ではmax-then-meanを使用、SummaC Convは含意スコアのヒストグラム上の訓練済み畳み込み層を用いる。
FactsCCを用いた合成トレーニングデータ（50ビン）とクロスエントロピー損失でSummaC Convをエンドツーエンドで訓練。
六つの大規模な不整合データセットを標準化して二値分類タスクとしてSummaC Benchmarkを形成。
SummaCモデルをNER-Overlap、MNLI-doc、FactCC-CLS、DAE、FEQA、QuestEvalなどを含む広範なベースラインと比較。
NLIモデルの選択、NLIカテゴリの使用、粒度が性能に与える影響を分析。

実験結果

リサーチクエスチョン

RQ1NLIモデルは文レベルの前提と仮説に分割された入力で要約の不整合を効果的に検出できるか？
RQ2文レベルの含意スコアを集約することで単一の最大スコアを用いる場合よりロバスト性が向上するか？
RQ3粒度とNLIカテゴリの選択は多様なデータセットで不整合検出の性能にどのように影響するか？
RQ4不整合検出のための零 shotと訓練済み集約手法の相対的性能は？
RQ5標準化された複数データセットベンチマークでSummaCモデルの性能はどうか？

主な発見

SummaC ConvはSummaC Benchmarkで全体のバランスのとれた最高精度74.4%を達成し、従来手法を約5ポイント上回る。
SummaCモデルはBenchmarkのほとんどのデータセットで従来の不整合検出器を一貫して上回る。
粒度は重要で、より細かな文書粒度と文レベル分析が全文または粗い粒度より高い性能を示す。
デフォルトのNLIモデル組み合わせ（MNLIとVitamin C）とSummaC Convは強力な結果を提供し、NLIの進歩が不整合検出の改善と関連していることを強化する。
全含意スコア分布（SummaC Conv）を用いる方が単一最大スコア（SummaC ZS）に依存するよりロバストである。
SummaC Convは評価対象のすべての手法の中で最良の平均性能を達成し、いくつかのデータセットで統計的に有意な改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。