[論文レビュー] Scaling Synthetic Data Creation with 1,000,000,000 Personas
本論文は、LLMsのためのスケーラブルで多様な合成データ生成を推進する億人数のペルソナコレクションである Persona Hub を紹介し、数学、論理、指示、テキスト、NPC、ツールの各分野での活用を実証し、数十万〜百万件規模のサンプルをオープン公開する。
We propose a novel persona-driven data synthesis methodology that leverages various perspectives within a large language model (LLM) to create diverse synthetic data. To fully exploit this methodology at scale, we introduce Persona Hub -- a collection of 1 billion diverse personas automatically curated from web data. These 1 billion personas (~13% of the world's total population), acting as distributed carriers of world knowledge, can tap into almost every perspective encapsulated within the LLM, thereby facilitating the creation of diverse synthetic data at scale for various scenarios. By showcasing Persona Hub's use cases in synthesizing high-quality mathematical and logical reasoning problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs and tools (functions) at scale, we demonstrate persona-driven data synthesis is versatile, scalable, flexible, and easy to use, potentially driving a paradigm shift in synthetic data creation and applications in practice, which may have a profound impact on LLM research and development.
研究の動機と目的
- ペルソナ駆動プロンプトを用いて、シードコーパスを超えるスケーラブルで多様な合成データ作成を動機づける。
- Text-to-Persona および Persona-to-Persona によるウェブデータからの Persona Hub の自動構築を提案する。
- ペルソナ駆動プロンプトが、数学、論理、指示、知識テキスト、NPC、ツールの大規模データ合成を可能にすることを実演する。
- 研究と評価を可能にするため、初期データ(20万のペルソナと付随サンプル)を公開する。
提案手法
- 広範なウェブテキストから Text-to-Persona によって Persona Hub を構築し、ペルソナ記述を推定する。
- 六次の拡張を含む対人関係に基づくカバレッジを豊かにするために Persona-to-Persona を補強する。
- n-gram の MinHash と埋め込みベースのコサイン類似度を用いてペルソナを重複排除する。
- ペルソナをデータ合成プロンプトに組み込み、ゼロショット、few-shot、およびペルソナ強化プロンプトによる多様な出力を生成する。
- 合成データのスケーラビリティと多様性、および下流の LLM パフォーマンスへの影響を評価する。
- 研究のために公開サンプルを提供する(例:50k の数理問題、50k の指示、50k の推論問題、10k の知識テキスト、5k のツール)。
実験結果
リサーチクエスチョン
- RQ1ペルソナ駆動プロンプティングは、合成データ生成を数十億の多様な例へスケールできるか?
- RQ2ウェブ由来のペルソナを、多様性を保ちながら十億規模で自動的に作成・重複排除する方法は?
- RQ3ペルソナ駆動プロンプトが、合成された数学、論理、指示、および知識テキストの質と多様性にどのような影響を与えるか?
- RQ4ペルソナ駆動プロンプトで訓練された合成データが、分布内および分布外の数学ベンチマークにおける LLM の性能にどう影響するか?
- RQ5十億規模の合成データ作成と LLM からの記憶抽出に関する倫理的・安全性の考慮事項は何か?
主な発見
- 重複排除後、Persona Hub は 1,015,863,523 のユニークなペルソナを生み出す。
- 1.07M の合成数学問題を用いた 7B モデルのファインチューニングでは MATH で 64.9% を達成し、はるかに小型のモデルで GPT-4-turbo の性能に近づく。
- ペルソナ駆動プロンプトで生成された合成データは、数学問題生成の妥当性が高く(サンプルで専門家評価妥当性 96.5%)
- 分布内評価では、1.07M 問題でファインチューニングされた 7B モデルが合成テストセットで約 79.4% に達し、いくつかのオープンソースベースラインを上回る。
- MATH の分布外評価では、ファインチューニング済みの 7B モデルが、複数のオープン・クローズド・ドメインベースラインと比較して高い性能を示す。
- 本手法は、数学、論理的推論、指示、知識豊富なテキスト、ゲームのNPC、ツール開発など、幅広い適用性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。