Skip to main content
QUICK REVIEW

[论文解读] Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models

Haoran Li, Qingxiu Dong|arXiv (Cornell University)|Feb 20, 2024
Natural Language Processing Techniques被引用 5
一句话总结

GLAN 是一种通用、可扩展的方法,它从人类知识分类学中生成大规模的合成指令数据,并用它来对 LLM 进行指令微调,在没有特定任务训练数据的情况下实现强大的通用性能。

ABSTRACT

We introduce Generalized Instruction Tuning (called GLAN), a general and scalable method for instruction tuning of Large Language Models (LLMs). Unlike prior work that relies on seed examples or existing datasets to construct instruction tuning data, GLAN exclusively utilizes a pre-curated taxonomy of human knowledge and capabilities as input and generates large-scale synthetic instruction data across all disciplines. Specifically, inspired by the systematic structure in human education system, we build the taxonomy by decomposing human knowledge and capabilities to various fields, sub-fields and ultimately, distinct disciplines semi-automatically, facilitated by LLMs. Subsequently, we generate a comprehensive list of subjects for every discipline and proceed to design a syllabus tailored to each subject, again utilizing LLMs. With the fine-grained key concepts detailed in every class session of the syllabus, we are able to generate diverse instructions with a broad coverage across the entire spectrum of human knowledge and skills. Extensive experiments on large language models (e.g., Mistral) demonstrate that GLAN excels in multiple dimensions from mathematical reasoning, coding, academic exams, logical reasoning to general instruction following without using task-specific training data of these tasks. In addition, GLAN allows for easy customization and new fields or skills can be added by simply incorporating a new node into our taxonomy.

研究动机与目标

  • 提高 LLM 指令遵循能力的动机,超越种子数据或领域特定数据集。
  • 提出一个可扩展的管道,从经过整理的人类知识分类学中生成合成指令数据。
  • 证明在 GLAN 生成数据上训练的模型在数学推理、编码、逻辑和学术考试方面表现出色。
  • 展示通过添加新的分类节点,GLAN 可以实现定制和扩展。

提出的方法

  • 使用前沿的 LLM(GPT-4)加上人工验证,构建人类知识与能力的分类学。
  • 将学科分解为科目,然后通过 LLMs 为每个科目设计教学大纲。
  • 将科目分解为课程时段,并使用 LLMs 从教学大纲中提取关键概念。
  • 抽样课程时段和关键概念,借助 LLMs 生成多样化的家庭作业题目;用 GPT-3.5-turbo 生成答案。
  • 使用标准微调设置,在合成的指令-答案对上训练基础模型(Mistral 7B)。

实验结果

研究问题

  • RQ1基于分类学的全自动数据生成管道是否能够在跨领域范围内生成广泛有用的指令数据?
  • RQ2与基线相比,在 GLAN 生成的数据上进行指令微调是否能提升数学推理、编码、逻辑和学术考试的表现?
  • RQ3通过扩展分类学添加新领域时,GLAN 是否对重新生成全部数据具有鲁棒性?
  • RQ4在没有任务特定域内数据的情况下,基于 GLAN 数据训练的模型是否仍能保持通用的指令遵循性?

主要发现

  • GLAN 生成的数据在数学推理、编码、逻辑推理和学术考试方面表现出色,且不使用任务特定训练数据。
  • GLAN 相对于若干基线在一组基准测试(数学、编码、推理、考试)上取得了具竞争力或最佳的结果。
  • 基于分类学的数据生成方法通过添加新节点即可轻松扩展,无需重新运行整个管道。
  • 在 GLAN 数据上训练的模型在跨学科领域表现出高度适应性,尤其在 STEM 相关任务中取得显著提升。
  • 评估表明 GLAN 生成的指令数据多样,避免对域内基准数据过拟合。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。