[论文解读] Scaling Synthetic Data Creation with 1,000,000,000 Personas
本文介绍 Persona Hub,一个十亿人设的集合,推动可扩展且多样化的合成数据生成用于 LLMs,并展示其在数学、逻辑、指令、文本、NPC 和工具等领域的应用,并公开发布数十万到数百万个样本。
We propose a novel persona-driven data synthesis methodology that leverages various perspectives within a large language model (LLM) to create diverse synthetic data. To fully exploit this methodology at scale, we introduce Persona Hub -- a collection of 1 billion diverse personas automatically curated from web data. These 1 billion personas (~13% of the world's total population), acting as distributed carriers of world knowledge, can tap into almost every perspective encapsulated within the LLM, thereby facilitating the creation of diverse synthetic data at scale for various scenarios. By showcasing Persona Hub's use cases in synthesizing high-quality mathematical and logical reasoning problems, instructions (i.e., user prompts), knowledge-rich texts, game NPCs and tools (functions) at scale, we demonstrate persona-driven data synthesis is versatile, scalable, flexible, and easy to use, potentially driving a paradigm shift in synthetic data creation and applications in practice, which may have a profound impact on LLM research and development.
研究动机与目标
- 以人物驱动的提示为基础,超越种子语料库,推动可扩展且多样化的合成数据创建。
- 提出通过 Text-to-Persona 和 Persona-to-Persona,从网络数据自动构建 Persona Hub。
- 演示人物驱动的提示如何实现数学、逻辑、指令、知识文本、NPC 和工具的大规模数据合成。
- 发布初始数据(200k 人设及相关样本)以支持研究与评估。
提出的方法
- 通过从海量网络文本的 Text-to-Persona 构建 Persona Hub,以推断人设描述。
- 通过 Persona-to-Persona 增强覆盖范围,利用人际关系和六度扩展。
- 使用 MinHash 的 n-gram 和基于嵌入的余弦相似度对人设去重。
- 将人设整合到数据合成提示中,以生成多样化输出(零样本、少样本和人设增强提示)。
- 评估合成数据的可扩展性和多样性及其对下游 LLM 性能的影响。
- 提供开放样本(如 50k 道数学题、50k 条指令、50k 道推理题、10k 条知识文本、5k 个工具)以用于研究。
实验结果
研究问题
- RQ1以人物驱动的提示将合成数据生成扩展到数十亿个多样化样本吗?
- RQ2如何在保持多样性的同时,自动在十亿规模上从网络派生的人设中创建和去重?
- RQ3人物驱动提示对合成数学、逻辑、指令和知识文本的质量与多样性有何影响?
- RQ4以人物驱动提示训练的合成数据在同分布和跨分布的数学基准测试上对 LLM 性能有何影响?
- RQ5来自十亿规模的合成数据创建和对 LLM 的记忆提取引发了哪些伦理和安全方面的考量?
主要发现
- Deduplication后,Persona Hub 产生了 1,015,863,523 个独特的人设。
- 使用 1.07M 个合成数学题对一个 7B 模型进行微调,在 MATH 上达到 64.9%,接近 GPT-4-turbo 的性能,但模型要小得多。
- 通过人物驱动提示生成的合成数据在数学题生成中具有高有效性(样本中的专家评分有效性为 96.5%)。
- 同分布评估显示,微调于 1.07M 题的 7B 模型在一个合成测试集上达到约 79.4%,优于若干开源基线。
- 跨分布评估在 MATH 上显示,微调后的 7B 模型相比若干开源和闭域基线表现强劲。
- 该方法在数学、逻辑推理、指令、知识丰富文本、游戏 NPC 和工具开发方面展示了广泛的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。