QUICK REVIEW

[論文レビュー] CoNT: Contrastive Neural Text Generation

Chenxin An, Jiangtao Feng|arXiv (Cornell University)|May 29, 2022

Natural Language Processing Techniques被引用数 22

ひとこと要約

CoNTは自己生成ネガティブサンプル、N-pairs損失、デコーディング時の学習済み系列類似性を用いたニューラルテキスト生成の対比学習フレームワークを導入し、複数の生成タスクで最先端の結果を達成します。

ABSTRACT

Recently, contrastive learning attracts increasing interests in neural text generation as a new solution to alleviate the exposure bias problem. It introduces a sequence-level training signal which is crucial to generation tasks that always rely on auto-regressive decoding. However, previous methods using contrastive learning in neural text generation usually lead to inferior performance. In this paper, we analyse the underlying reasons and propose a new Contrastive Neural Text generation framework, CoNT. CoNT addresses bottlenecks that prevent contrastive learning from being widely adopted in generation tasks from three aspects -- the construction of contrastive examples, the choice of the contrastive loss, and the strategy in decoding. We validate CoNT on five generation tasks with ten benchmarks, including machine translation, summarization, code comment generation, data-to-text generation and commonsense generation. Experimental results show that CoNT clearly outperforms the conventional training framework on all the ten benchmarks with a convincing margin. Especially, CoNT surpasses previous the most competitive contrastive learning method for text generation, by 1.50 BLEU on machine translation and 1.77 ROUGE-1 on summarization, respectively. It achieves new state-of-the-art on summarization, code comment generation (without external data) and data-to-text generation.

研究の動機と目的

自己回帰テキスト生成における露出バイアスを緩和するための対比学習の動機付け。
(i) モデル予測から対照的ネガティブをサンプリング、(ii) シーケンスレベルのスコアを用いたN-pairsマージン損失、(iii) 学習済みの類似度スコアをデコーディングに組み込むフレームワークを設計。
複数の生成タスクでMLEベースラインと既存の対比法を上回る改善を示す。
CoNTが複数のベンチマークで新しい最先端結果を達成し、推論時にも効率的であることを示す。

提案手法

多様ビーム探索を用いてモデル自身の予測からネガティブ/対比例をサンプリング。
シーケンスレベルのオラクルスコア（例：BLEU）とソース表現とのコサイン類似度を用いて対照サンプルをランク付けするN-pairs対比損失を採用。
マージンベース損失: L_N-Pairs = sum max{0, cos(z_x, z_y^-) − cos(z_x, z_y^+) + xi}、xiは順位ベースのマージンを反映。
デコーディングで学習済み類似度スコアを組み込み、コサイン類似度と従来の尤度の混合を最大化: y* = argmax_y { alpha * cos(z_x, z_y) + (1 - alpha) * p(y|x)}。
自分で生成したネガティブを生成し、バッチからのネガティブと組み合わせて対照セットを形成。
デコーディング時にシーケンス類似度と言語モデル尤度のバランスをとる推論手順を提供。

実験結果

リサーチクエスチョン

RQ1モデル自身の予測からのサンプル生成は、バッチネガティブのみよりも情報量の多いネガティブを提供しますか？
RQ2シーケンスレベルのスコアを用いたN-pairsマージン損失は、対照テキスト生成におけるInfoNCEを上回りますか？
RQ3学習済みシーケンス類似度をデコーディングに組み込むことで、標準のMLE損失を超える生成品質が得られますか？
RQ4翻訳、要約、コードコメント生成、データ→テキスト、コモンセンス生成の各タスクでCoNTはどのように機能しますか？
RQ5CoNTの訓練効率のトレードオフは、伝統的なMLEや既存の対比法と比べてどうですか？

主な発見

CoNTはMLEベースラインを大幅に向上させ、10のベンチマークで従来の対比法を上回る。
WMT’16 Ro-Enでは、N-Pairs損失とデコーディング類似度を用いたCoNTは30.91 BLEUを達成、従来の最良対比法を1.50 BLEU上回る。
IWSLT’14 De-Enでは、シーケンス類似性デコーディングがバニラビーム探索より最大0.86 BLEU向上。
XSum要約ではPEGASUSベースのCoNTが新しい最先端結果を確立。
CodeT5をバックボーンとするコードコメント生成で、PythonとJavaのBLEUを20.56に向上。
データ→テキスト（WikiBio）でCoNTはR2D2を上回り、ベースモデルを使用しつつ大きなT5系列に近づく。
コモンセンス生成（CommonGen）では、T5-baseのCoNTがCIDErとSPICE指標でより大きなベースラインを上回る。
CoNTはデータ→テキストとコモンセンス生成で大規模事前学習モデルと同等の性能を維持しつつ、効率性を保つ。
ヒューマン評価では、翻訳と要約タスクでCoNTの出力がMLEおよびNaive CLより好ましいとされる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。