Skip to main content
QUICK REVIEW

[論文レビュー] Contrastive Search Is What You Need For Neural Text Generation

Yixuan Su, Nigel Collier|arXiv (Cornell University)|Oct 25, 2022
Topic Modeling被引用数 23
ひとこと要約

本論文は、ほとんどの自己回帰型言語モデルが16言語で等方的であることを示し(小型の英語GPT-2バリアントを除く)、追加の訓練なしにコントラスト探索デコードが他のデコード手法と比較して高品質なテキストを生み出し、しばしば人間レベルの性能に達することを示している。

ABSTRACT

Generating text with autoregressive language models (LMs) is of great importance to many natural language processing (NLP) applications. Previous solutions for this task often produce text that contains degenerative expressions or lacks semantic consistency. Recently, Su et al. introduced a new decoding method, contrastive search, based on the isotropic representation space of the language model and obtained new state of the art on various benchmarks. Additionally, Su et al. argued that the representations of autoregressive LMs (e.g. GPT-2) are intrinsically anisotropic which is also shared by previous studies. Therefore, to ensure the language model follows an isotropic distribution, Su et al. proposed a contrastive learning scheme, SimCTG, which calibrates the language model's representations through additional training. In this study, we first answer the question: "Are autoregressive LMs really anisotropic?". To this end, we extensively evaluate the isotropy of LMs across 16 major languages. Surprisingly, we find that the anisotropic problem only exists in the two specific English GPT-2-small/medium models. On the other hand, all other evaluated LMs are naturally isotropic which is in contrast to the conclusion drawn by previous studies. Based on our findings, we further assess the contrastive search decoding method using off-the-shelf LMs on four generation tasks across 16 languages. Our experimental results demonstrate that contrastive search significantly outperforms previous decoding methods without any additional training. More notably, on 12 out of the 16 evaluated languages, contrastive search performs comparably with human-level performances as judged by human evaluations. Our code and other related resources are publicly available at https://github.com/yxuansu/Contrastive_Search_Is_What_You_Need.

研究の動機と目的

  • 自己回帰型LMが本当に異方性であるか、及び等方性が言語やモデルスケールによってどのように変化するかを評価する。
  • 追加の訓練なしに、オープンエンド生成、要約、コード生成、機械翻訳に対するコントラスト探索デコードを評価する。
  • 自動評価と人間評価において、コントラスト探索を従来のデコード手法(グリーディ、ビーム、ヌクレウス、トップ-k)と比較する。
  • コントラスト探索の挙動と、言語を横断するLMの等方性との関係を分析する。

提案手法

  • 16言語にわたるトークン表現の自己相似性と等方性指標を用いて等方性を定量化する。
  • モデルの信頼度と退化ペナルティを組み合わせて次のトークンを選択する、コントラスト検索デコード式を再検討する(式3)。
  • 英語および多言語設定でのオープンエンド生成、要約、コード生成、翻訳に対して、自動指標(多様性、MAUVE、コヒーレンス)と人間評価を用いてデコード手法を評価する。
  • 16言語にわたる大規模な人間評価を実施し、コントラスト探索をベースラインと比較する。
  • コントラスト探索が等方性とどのように相互作用するか、なぜ追加の訓練なしで機能するのかを分析する。

実験結果

リサーチクエスチョン

  • RQ1自己回帰型言語モデルは言語を超えて本質的に異方性を持つのか、それとも異方性は特定の英語GPT-2バリアントに限られるのか?
  • RQ2追加のモデル訓練なしで、複数のタスクと言語でテキスト生成品質をコントラスト探索が改善できるか?
  • RQ3言語モデルの等方性とコントラスト探索デコード手法の有効性との関係はどうなるか?
  • RQ4オープンエンド生成、要約、コード生成、翻訳におけるコントラスト探索の経験的利得は、標準的なデコード手法と比べてどの程度か?

主な発見

  • 評価対象の多くのLM(38モデル、16言語)は等方性であり、異方性は英語GPT-2の小型/中型の2つのバリアントに限定される。
  • 追加の訓練なしのコントラスト探索は、4つの生成タスク全体で従来のデコード手法を大幅に上回る。
  • 多くの言語(16言語中12言語)で、コントラスト探索は人間評価に基づき人間レベルに匹敵する性能を達成する。
  • コントラスト探索は、他の確率的手法より与えられた前置詞との一貫性が高く、同時に多様性とMAUVEスコアも競争力を維持する。
  • タスクを問わず、コントラスト探索は自動指標でベースライン手法に匹敵または上回ることが多く、人間の判断でも支持される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。