Skip to main content
QUICK REVIEW

[論文レビュー] A Contrastive Framework for Neural Text Generation

Yixuan Su, Lü Tian|arXiv (Cornell University)|Feb 13, 2022
Topic Modeling被引用数 83
ひとこと要約

本論文は SimCTG を導入し、識別性が高く等方性のトークン表現を生み出す対比的学習目的と、生成文の一貫性と多様性のバランスをとる contrastive search と呼ばれるデコーディング手法を提案し、複数のベンチマークと言語で最先端の結果を示す。

ABSTRACT

Text generation is of great importance to many natural language processing applications. However, maximization-based decoding methods (e.g. beam search) of neural language models often lead to degenerate solutions -- the generated text is unnatural and contains undesirable repetitions. Existing approaches introduce stochasticity via sampling or modify training objectives to decrease probabilities of certain tokens (e.g., unlikelihood training). However, they often lead to solutions that lack coherence. In this work, we show that an underlying reason for model degeneration is the anisotropic distribution of token representations. We present a contrastive solution: (i) SimCTG, a contrastive training objective to calibrate the model's representation space, and (ii) a decoding method -- contrastive search -- to encourage diversity while maintaining coherence in the generated text. Extensive experiments and analyses on three benchmarks from two languages demonstrate that our proposed approach significantly outperforms current state-of-the-art text generation methods as evaluated by both human and automatic metrics.

研究の動機と目的

  • 標準的な尤度ベースの訓練とデコーディングを用いたニューラルテキスト生成における退化を動機づけ、対処する。
  • トークン表現を等方性と識別性へと調整する対比的学習目的を提案する。
  • コヒーレンスを保ちつつ多様性を高めるデコーディングアルゴリズム(contrastive search)を導入する。

提案手法

  • コサイン類似度とマージン rho を用いて識別的なトークン表現を促す対照損失 L_CL を定義・最適化する。
  • 訓練のために L_MLE と L_CL を SimCTG の目的関数に統合する。
  • トークン表現の類似性に基づく退化ペナルティとモデル信頼度のバランスを取り、top-k 候補から選択する対照的デコーディング規則を導出する。
  • greedy、beam search、nucleus sampling、提案する contrastive search を含むデコーディング方法を評価する。
  • 複数言語・モデルサイズにわたるオープンエンド文書生成とオープンドメイン対話生成への適用。

実験結果

リサーチクエスチョン

  • RQ1対照的学習は標準的なMLE訓練と比べてより識別的で等方的なトークン表現を生み出すか。
  • RQ2提案された contrastive search デコーディングは、プリフィックスとの意味的整合性を損なうことなくコヒーレンスと多様性を改善できるか。
  • RQ3SimCTG はタスク(文書生成、対話)と言語(英語、中国語)、および異なるモデルスケールで有効か。
  • RQ4対照的損失のハイパーパラメータ(マージン rho)とデコーダのパラメータ(k、alpha)の違いは性能にどう影響するか。

主な発見

  • SimCTG は WikiText-103 のベースラインより困惑度と次トークン正確度で優れる。
  • 対照的検索と組み合わせた SimCTG は生成品質のベストを達成し、反復の低減、多様性の向上、人間に近いトークン分布(MAUVE)を含む。
  • 対照的検索はコヒーレンスと流暢さを人間評価で向上させ、SimCTG と組み合わせた場合に nucleus sampling を上回る設定が多い。
  • 複数データセットで SimCTG + contrastive search は人間の流暢さ・コヒーレンスを一致または上回り、特に大規模モデルで顕著な利得。
  • 英語と中国語の対話データセット全体で、SimCTG + contrastive search はベースラインより一貫してコヒーレンス、流暢さ、情報量を改善。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。