[論文レビュー] Exploring the Impact of Instruction Data Scaling on Large Language Models: An Empirical Study on Real-World Use Cases
本論文は、実世界の中国語利用ケースにおける指示データの異なるスケールが指示応答型大規模言語モデルに与える影響を分析し、いくつかのタスクでデータ量を増やすことで広い改善が得られる一方、数学およびコードに対する改善は頭打ちになることを示しています。さらにデータ品質と今後の方向性についても論じています。
The success of ChatGPT has recently attracted numerous efforts to replicate it, with instruction-tuning strategies being a key factor in achieving remarkable results. Instruction-tuning not only significantly enhances the model's performance and generalization but also makes the model's generated results more consistent with human speech patterns. However current research rarely studies the impact of different amounts of instruction data on model performance, especially in the real-world use cases. In this paper we explore the performance of large language models based on instruction tuning across different scales of instruction data. An evaluation dataset consisting of 12 major online use cases is constructed in the experiment. With Bloomz-7B1-mt as the base model, the results show that 1) merely increasing the amount of instruction data leads to continuous improvement in tasks such as open-ended generation, 2) in tasks such as math and code, the model performance curve remains quite flat while increasing data size. We further analyze the possible causes of these phenomena and propose potential future research directions such as effectively selecting high-quality training data, scaling base models and training methods specialized for hard tasks. We will release our training and evaluation datasets, as well as model checkpoints.
研究の動機と目的
- 実世界のタスクにおける指示フォロー型LLMの性能に対する指示データサイズの変化の影響を調査する。
- オンラインの12用途にわたる中国語の指示訓練および評価データセットを作成する。
- タスク別のスケーリング挙動を分析し、ボトルネックと最適なデータ範囲を特定する。
- データ品質、ベースモデルのスケーリング、タスク特化型訓練手法を含む今後の課題と方向性を提案する。
提案手法
- 4つのデータスケール(0.2M、0.6M、1M、2Mの指示)でBloomz-7B1-mtベースモデルをファインチューニングし、BELLE-7B-0.2M、BELLE-7B-0.6M、BELLE-7B-1M、BELLE-7B-2Mを作成する。
- シードを中国語に翻訳し、ChatGPTを用いたインコンテキスト学習で拡張して指示データを生成する;評価データと12タイプのテストセットをキュレーションする。
- ChatGPTを評価者としてモデル応答を評価し、各指示を0から1のスコアで評価し、3回の実行を平均する。
- タスク別の性能を分析して、どのタスクがデータスケーリングの恩恵を受けるか、どのタスクが飽和するかを特定し、データ品質を制約因子として議論する。
実験結果
リサーチクエスチョン
- RQ1実世界の中国語のユースケースにおける指示フォロー型LLMの性能に対して、指示データサイズはどのように影響するのか?
- RQ2どのタスクタイプがデータ追加により継続的な改善を示し、どれが頭打ちするのか?
- RQ3数学、コード、思考過程(chain-of-thought)といった難易度の高いタスクで改善を妨げるボトルネックは何か?
- RQ4データ品質とデータ選択戦略をどのように活用して、指示チューニングの結果をさらに改善できるか?
主な発見
- 指示データが増えるほど性能は一般的に向上し、特にオープンエンドの生成タスクで顕著である。
- 数学、コード、COT(思考過程)タスクは約1Mデータを超えると限られた改善しか見られず、データ品質またはモデルスケールの限界を示唆している。
- 抽出、分類、閉じたQA、要約はより大きなデータから引き続き恩恵を受けるが、非常に大きなスケールでは利得が頭打ちする可能性がある。
- 翻訳、書換え、生成、ブレインストーミングは2M指示以下でも良好な性能を示すことがある。
- いくつかのタスクでは約200kのトレーニング例でベースライン性能がすでに高く、タスク間でデータ効率が異なることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。