[論文レビュー] Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias
論文は AttrPrompt を提案する。LLM を用いて多様な属性付きプロンプトを使い学習データを生成し、単純なプロンプトに比べて高カーディナリティ分類タスクにおけるモデル性能の改善とバイアスの低減を示す。データ効率も向上。
Large language models (LLMs) have been recently leveraged as training data generators for various natural language processing (NLP) tasks. While previous research has explored different approaches to training models using generated data, they generally rely on simple class-conditional prompts, which may limit the diversity of the generated data and inherit systematic biases of LLM. Thus, we investigate training data generation with diversely attributed prompts (e.g., specifying attributes like length and style), which have the potential to yield diverse and attributed generated data. Our investigation focuses on datasets with high cardinality and diverse domains, wherein we demonstrate that attributed prompts outperform simple class-conditional prompts in terms of the resulting model's performance. Additionally, we present a comprehensive empirical study on data generation encompassing vital aspects like bias, diversity, and efficiency, and highlight three key observations: firstly, synthetic datasets generated by simple prompts exhibit significant biases, such as regional bias; secondly, attribute diversity plays a pivotal role in enhancing model performance; lastly, attributed prompts achieve the performance of simple class-conditional prompts while utilizing only 5\% of the querying cost of ChatGPT associated with the latter. The data and code are available on \url{https://github.com/yueyu1030/AttrPrompt}.
研究の動機と目的
- プロンプトを属性づけ(例:長さ、場所、スタイル)することが、シンプルなクラス条件付きプロンプト(SimPrompt)よりもより多様で有益な生成データを生み出すかを調査する。
- 高カーディナリティかつマルチドメインの分類タスク全体で、LLM生成データのバイアスと多様性を定量化する。
- 複数のモデルサイズと LLM-as-data-generator アプローチ間で、データ効率(コスト)と適合性を評価する。
- 曖昧さを減らすための属性次元識別と値のフィルタリングの半自動ワークフローを提供する。
- 将来の研究を促進するために生成データとプロンプトを公開する。
提案手法
- 対話型の人間–AI コラボレーションを用いて各データセットの属性次元と値を特定する。
- 属性次元/値をランダムに組み合わせて多様なプロンプトを作成することで、属性付きプロンプト(AttrPrompt)を生成する。
- AttrPrompt を SimPrompt および Gold データと比較し、BERTファミリー分類器の標準的なファインチューニングを用いる。
- クラス依存属性の曖昧さを避けるために Class-Dependent Attribute Value Filtering(CAF)を適用する。
- 語彙量、コサイン類似度、APS、INGF などの指標を用いて語彙的・構造的多様性を評価する。
- 複数の LLM およびモデルサイズ間でクエリコストとパフォーマンスを比較し、データ効率を評価する。
- AttrPrompt を他のデータ生成手法と統合することでプラグイン互換性を実証する。
実験結果
リサーチクエスチョン
- RQ1多様に属性づけられたプロンプトを用いると、高カーディナリティタスクにおいて単純なクラス条件付きプロンプトと比べて下流タスクのモデル性能を向上させるか?
- RQ2属性の多様性と CAF がデータのバイアス・多様性・モデル性能にどう影響するか?
- RQ3AttrPrompt と SimPrompt の使用で、データセットとモデルの組み合わせごとにコストとデータ効率のトレードオフはどうなるか?
- RQ4AttrPrompt は既存のデータ生成アプローチを強化し、多ラベル分類に利益をもたらすか?
- RQ5属性の多様性は、データ不足時とデータ豊富時の性能にどのように影響するか?
主な発見
- AttrPrompt は複数のデータセットで一貫して SimPrompt を約 6–10 ポイント上回る。
- AttrPrompt は ChatGPT のクエリコストがおよそ 5% 程度の時点で SimPrompt と同等の性能を達成。
- 属性の多様性は重要で、1つが固定・他がランダムな設定はランダム設定を下回り、個別に最適な属性を選ぶと性能を損なう。
- AttrPrompt は NYT の場所属性において Gold や SimPrompt よりも属性分布がより均衡となり、地域バイアスを軽減する。
- 多様性指標では AttrPrompt が SimPrompt より語彙的多様性が高く Gold に近いが、どちらも Gold より多様性は低い。
- AttrPrompt は元の訓練データと併用した場合の性能向上に寄与し、他のデータ生成手法への有用なプラグインとして機能する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。