Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Break the Loop: Analyzing and Mitigating Repetitions for Neural Text Generation

Jin Xu, Xiaojiang Liu|arXiv (Cornell University)|Jun 6, 2022
Topic Modeling被引用数 21
ひとこと要約

本論文は、ニューラル言語モデルがなぜ前の文を繰り返す傾向を示すのかを分析し、反復確率を指数関数的に減衰させる訓練法DITTOを提案する。これにより、困惑度を悪化させずに生成品質を向上させる。

ABSTRACT

While large-scale neural language models, such as GPT2 and BART, have achieved impressive results on various text generation tasks, they tend to get stuck in undesirable sentence-level loops with maximization-based decoding algorithms ( extit{e.g.}, greedy search). This phenomenon is counter-intuitive since there are few consecutive sentence-level repetitions in human corpora (e.g., 0.02\% in Wikitext-103). To investigate the underlying reasons for generating consecutive sentence-level repetitions, we study the relationship between the probabilities of the repetitive tokens and their previous repetitions in the context. Through our quantitative experiments, we find that 1) Language models have a preference to repeat the previous sentence; 2) The sentence-level repetitions have a extit{self-reinforcement effect}: the more times a sentence is repeated in the context, the higher the probability of continuing to generate that sentence; 3) The sentences with higher initial probabilities usually have a stronger self-reinforcement effect. Motivated by our findings, we propose a simple and effective training method extbf{DITTO} (Pseu\underline{D}o-Repet\underline{IT}ion Penaliza\underline{T}i\underline{O}n), where the model learns to penalize probabilities of sentence-level repetitions from pseudo repetitive data. Although our method is motivated by mitigating repetitions, experiments show that DITTO not only mitigates the repetition issue without sacrificing perplexity, but also achieves better generation quality. Extensive experiments on open-ended text generation (Wikitext-103) and text summarization (CNN/DailyMail) demonstrate the generality and effectiveness of our method.

研究の動機と目的

  • 最大化ベースのデコードがニューラルテキスト生成において文単位の反復を引き起こす原因を調べる。
  • 文脈内の過去の反復と反復確率の関係を定量化する。
  • 生成性能を損なうことなく反復を減らす訓練ベースの解決策を開発する。
  • オープンエンド生成と要約タスクで方法の有効性を示す。

提案手法

  • 反復過程を分析するため、反復文を作成し、反復ごとにトークン確率の変化を測定する。
  • 指標を定義する:平均トークン確率(Average Token Probability, TP)、トークン確率増加率(Rate of Increased Token Probability, IP)、勝者率(Winner Rate, WR)を自己強化を特徴づける。
  • DITTO(Pseudo Repetition Penalization)を提案する。疑似反復データを生成し、反復回数(lambdaで制御)とともに反復確率を減衰させる反復ペナルティ損失を適用する。
  • 標準的なMLE損失とDITTO損失を混合したファインチューニングを行い、過度な反復を回避するよう学習する。
  • MAUVE、パープレキシティ、正確さ、反復指標を用いてWikitext-103のオープンエンド生成とCNN/ Daily Mail要約で評価し、確率的デコードとの互換性を評価する。

実験結果

リサーチクエスチョン

  • RQ1最大化ベースのデコードの下で、言語モデルがなぜ前の文を繰り返すことを好むのか。
  • RQ2歴史的反復が蓄積すると、反復確率は自己強化の影響でどのように進化するか。
  • RQ3どの文が反復しやすく、なぜか。
  • RQ4訓練ベースのアプローチで言語モデルの品質を損なうことなく反復を抑制できるか。
  • RQ5提案手法DITTOはオープンエンド生成と要約タスクの両方で有効か。

主な発見

ModelMAUVEPerplexityAccuracyRepetition-4Repetition-Sen
MLE0.34 ±0.0225.68 ±0.040.39 ±0.0044.20 ±1.43 %14.50 ±1.59 %
UL-token0.57 ±0.0126.98 ±0.120.39 ±0.0028.30 ±0.78 %7.40 ±0.83 %
UL-token+seq0.48 ±0.0325.95 ±0.080.40 ±0.007.60 ±0.46 %0.05 ±0.03 %
SG0.74 ±0.0125.84 ±0.060.40 ±0.0023.00 ±0.28 %5.24 ±0.75 %
DITTO0.77 ±0.0124.33 ±0.040.42 ±0.0022.00 ±0.31 %2.85 ±0.74 %
Human---1.10%0.01%
  • モデルは文脈内に1回の反復があっても前の文を繰り返す傾向が強い。
  • 反復確率には自己強化効果が現れ、過去の反復回数が増えると上昇し、天井で安定する。
  • 初期確率が高い文は自己強化が強く、繰り返し生成されやすい。
  • DITTO訓練は文レベル・語句レベルの反復を減らしつつ、生成品質(困惑度、正確さ、MAUVE)を改善または維持する。
  • DITTOは確率的デコード戦略(top-k、 nucleus sampling)でも有効で、CNN/DailyMailの要約指標を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。