[論文レビュー] The Parrot Dilemma: Human-Labeled vs. LLM-augmented Data in Classification Tasks
本論文は、十の CSS 分類タスクを横断して、人間がラベル付けしたデータと GPT-4 および Llama-2 で拡張されたデータを比較し、人間の方が通常は高い性能を示す一方、LLM による拡張は希少クラスや複雑なタスクで有効であることを示す。ゼロショットの LLM は、ラベル付きデータで訓練されたモデルと比べてしばしば劣る。
In the realm of Computational Social Science (CSS), practitioners often navigate complex, low-resource domains and face the costly and time-intensive challenges of acquiring and annotating data. We aim to establish a set of guidelines to address such challenges, comparing the use of human-labeled data with synthetically generated data from GPT-4 and Llama-2 in ten distinct CSS classification tasks of varying complexity. Additionally, we examine the impact of training data sizes on performance. Our findings reveal that models trained on human-labeled data consistently exhibit superior or comparable performance compared to their synthetically augmented counterparts. Nevertheless, synthetic augmentation proves beneficial, particularly in improving performance on rare classes within multi-class tasks. Furthermore, we leverage GPT-4 and Llama-2 for zero-shot classification and find that, while they generally display strong performance, they often fall short when compared to specialized classifiers trained on moderately sized training sets.
研究の動機と目的
- 分類タスクにおいて人間による注釈と LLM 生成の拡張のどちらをいつ頼るべきか、計算社会科学の実務家に実用的な指針を提供する。
- 異なる難易度とクラス分布を持つタスクに対して、人間がラベル付けしたデータで訓練したモデルと LLM 拡張データで訓練したモデルの性能を評価する。
- GPT-4 と Llama-2 のゼロショット性能を、異なるデータ源で訓練した教師ありモデルと比較して評価する。
提案手法
- タスクごとに10%の基礎クラウドソーシングセットから始めて、低資源のラベリングをシミュレートする。
- 基礎セットを、人間がラベル付けした追加データまたは GPT-4 または Llama-2 70B Chat によって生成された合成サンプル(基礎サンプル1つにつき9つ)で拡張する。
- 固定アーキテクチャ(intfloat/e5-base、110M パラメータ)を用いて AdamW 最適化で 10 エポック訓練した後、 held-out テストセットで macro F1 と accuracy を評価する。
- 合成拡張の前に、基礎セットの少数クラスを過サンプリングしてクラス不均衡に対処する。
- 同一のプロンプトをタスク全体で使用して、GPT-4 および Llama-2 70B Chat のゼロショット分類とモデルを比較する。
実験結果
リサーチクエスチョン
- RQ1異なる難易度のタスクに対して、人間ラベルデータで訓練した場合と LLM 生成の拡張データで訓練した場合で、モデルの性能はどのように変化するか?
- RQ2多クラスタスクにおいて、希少クラスの性能向上は、クラウドソーシングデータと比較して LLM 生成の拡張で向上しますか?
- RQ3十の CSS 分類タスクにおいて、ゼロショットの LLM の性能はラベル付きデータで訓練したモデルと比べてどうか?
主な発見
| Task | Macro F1 (Full Human-labeled) | Macro F1 (Full LLM Augmented) | Zero-shot GPT-4 | Zero-shot Llama-2 70B |
|---|---|---|---|---|
| Sentiment | 0.6901 | 0.6430 | 0.6020 | 0.7126 |
| Hyperbole | 0.7163 | 0.6768 | 0.6570 | 0.6781 |
| Empathy | 0.6268 | 0.6135 | 0.6157 | 0.6488 |
| (for reference) | — | — | — | — |
- 人間が注釈したモデルは、合成拡張モデルやゼロショットモデルよりも、二値の balanced タスクや特定の多クラスバランスタスクで一般的に上回る。
- LLM 拡張は、複雑かつ不均衡な多クラスタスクおよび希少クラスに対して主に利益をもたらし、クラウドソーシングデータを上回ることもある。
- ゼロショットの性能はタスク依存であり、しばしば中程度のサイズのラベル付きデータまたは合成拡張データセットで訓練したモデルに上回られる。GPT-4 と Llama-2 はタスクごとに異なる強みを示す。
- Llama-2 の合成データは GPT-4 データより語彙的に多様である場合があり、感情などの一部タスクの性能に影響を与える。
- 合成拡張は、希少クラスの実例を得るのが困難な場合に特に有用である可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。