QUICK REVIEW

[論文レビュー] The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text

Yanzhu Guo, Guokan Shang|arXiv (Cornell University)|Nov 16, 2023

Natural Language Processing Techniques被引用数 8

ひとこと要約

論文は、 predecessor が生成した合成文で LLMs を再帰的に学習させると、3つのNLP生成タスクにおける出力の語彙的・意味的・統語的多様性が低下することを検証する。従来の性能指標を超えた言語多様性を定量化する新規指標も導入する。

ABSTRACT

This study investigates the consequences of training language models on synthetic data generated by their predecessors, an increasingly prevalent practice given the prominence of powerful generative models. Diverging from the usual emphasis on performance metrics, we focus on the impact of this training methodology on linguistic diversity, especially when conducted recursively over time. To assess this, we adapt and develop a set of novel metrics targeting lexical, syntactic, and semantic diversity, applying them in recursive finetuning experiments across various natural language generation tasks in English. Our findings reveal a consistent decrease in the diversity of the model outputs through successive iterations, especially remarkable for tasks demanding high levels of creativity. This trend underscores the potential risks of training language models on synthetic text, particularly concerning the preservation of linguistic richness. Our study highlights the need for careful consideration of the long-term effects of such training approaches on the linguistic capabilities of language models.

研究の動機と目的

LLM を自己生成データで長期的に学習させることの言語的多様性への影響を動機づけ、測定する。
パープレキシティや標準的な BLEU ベースの指標を超える語彙的・意味的・統語的多様性の自動指標を開発する。
複数の自然言語生成タスクにおける再帰的ファインチューニングを通じて多様性の変化を実験的に評価する。
トレーニングに predecessor 生成データを用いることによる言語的豊かさの潜在的リスクを強調する。

提案手法

predecessor が作成した合成データでの学習を人間著者データから開始する再帰的ファインチューニングとサンプリングのパイプラインを提案する。
語彙的多様性の指標（TTR、Distinct-2、Distinct-3、Self-BLEU）、意味的多様性（Sentence-BERT による埋め込み分散）、統語的多様性（Weisfeiler-Lehman カーネルを用いた依存木グラフ）を定義・計算する。
3つのタスク（ニュース要約、科学的要約生成、物語生成）における多様性とパープレキシティを六回の再帰的反復で評価する。
ベースモデルとして OPT-350M を使用し、タスクデータでファインチューニングし、タスクごとにネクサス採択と温度サンプリングを用いて合成データを生成する。
各反復でモデル出力を人間の参照データおよび前の反復と比較して多様性の低下を評価する。
評価は従来のタスク性能指標よりも多様性を重視し、合成データ訓練の長期的な影響を露呈させる。

実験結果

リサーチクエスチョン

RQ1語彙的・意味的・統語的次元を横断して自動的に言語的多様性を定量化するにはどうすればよいか。
RQ2 predecessor 生成テキストでの再帰的学習は、異なるNLGタスクにおけるモデル出力の言語的多様性を低下させるか。
RQ3高エントロピー生成タスクと低エントロピー生成タスクで多様性の傾向はどう異なるか。
RQ4合成データで学習した場合のパープレキシティと多様性との関係はどうなるか。

主な発見

パープレキシティは適切な範囲にとどまる一方で、3つの多様性指標はいずれも反復とともに低下する。
多様性の低下は高エントロピータスク（物語生成）で特に顕著で、低エントロピータスク（ニュース要約、科学的要約）より顕著。
統語的多様性は顕著に劣化し、語彙的・意味的多様性よりも大きく低下することが多く、構造的多様性の喪失を示す。
語彙的多様性（TTR、Distinct-2/3、Self-BLEU）は反復とともに漸次低下し、語彙的多様性の低下を示す。
意味的多様性は埋め込み分散によって測定され、タスク依存的なパターンで低下するが、語彙・統語の傾向とは異なる。
モデル出力は次第に先行訓練配布に収束し、世代を重ねるほど言語的豊かさが損なわれるリスクがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。