[论文解读] SEED: Domain-Specific Data Curation With Large Language Models
SEED 是一个将 LLM 作为编译器的系统,通过组合代码、小模型和数据访问模块自动生成领域特定的数据整治管道,在减少对 LLM 的使用的同时提升性能。
Data curation tasks that prepare data for analytics are critical for turning data into actionable insights. However, due to the diverse requirements of applications in different domains, generic off-the-shelf tools are typically insufficient. As a result, data scientists often have to develop domain-specific solutions tailored to both the dataset and the task, e.g. writing domain-specific code or training machine learning models on a sufficient number of annotated examples. This process is notoriously difficult and time-consuming. We present SEED, an LLM-as-compiler approach that automatically generates domain-specific data curation solutions via Large Language Models (LLMs). Once the user describes a task, input data, and expected output, the SEED compiler produces a hybrid pipeline that combines LLM querying with more cost-effective alternatives, such as vector-based caching, LLM-generated code, and small models trained on LLM-annotated data. SEED features an optimizer that automatically selects from the four LLM-assisted modules and forms a hybrid execution pipeline that best fits the task at hand. To validate this new, revolutionary approach, we conducted experiments on $9$ datasets spanning over $5$ data curation tasks. In comparison to solutions that use the LLM on every data record, SEED achieves state-of-the-art or comparable few-shot performance, while significantly reducing the number of LLM calls.
研究动机与目标
- 通过自动按需生成量身定制的解决方案来降低领域特定数据整理的时间和成本。
- 开发一个基于 LLM 的编译器,生成将代码、小模型和数据访问模块结合在一起的可执行管道。
- 通过编排处理大多数记录的模块,限制对逐记录 LLM 调用的依赖,并在困难场景中选择性地调用 LLM。
- 利用领域知识和可选工具来引导模块选择与计划生成,以应对多样化的整理任务。
提出的方法
- SEED 使用两步编译:(a) 从用户配置生成数据整理计划,(b) 构建模块并组装可执行管道。
- 模块包括代码、小模型和数据访问接口;在需要时,模块可直接对单条记录调用 LLM。
- 代码生成通过 LLM 指导与验证、LLM 代码生成器和验证器的建议与校验实现迭代改进。
- 代码集成通过进化算法对复杂逻辑进行扩展,在对不同的建议和测试用例进行分支时演化。
- 模型生成使用 LLM 作为注释者创建小模型,包括冻结的基于嵌入的检索以复用相似实例以及从 LLM 回应中蒸馏。
- 数据访问模块实现对数据库的高效检索,并可被其他模块用作工具以帮助 LLM 推理。

实验结果
研究问题
- RQ1SEED 能否在无需人工编码或大量标注的情况下,自动从任务描述和数据集中编译域特定的数据整理解决方案?
- RQ2在多任务情景下,生成的域特定模块(代码、小模型、数据访问)相较于通用方法和人工整理基线的效果如何?
- RQ3哪些策略在保持准确性的同时最能降低 LLM 的使用量(代码集合、数据访问、冻结模型)?
- RQ4两步 SEED 流程如何根据任务和数据属性(数据清洗、提取、注释、实体对齐、发现)来调整模块组成?
主要发现
- SEED 生成的域特定解决方案在九个数据集、五个数据整理任务中显著优于通用对手。
- SEED 常常接近使用成千上万标注示例的人工整理解决方案的性能。
- 与对每条记录都用 LLM 的方法相比,SEED 在更少的 LLM 调用下实现了最先进或可比的少量示例性能。
- 代码生成采用建议与验证循环,以及代码集合演化来稳健处理复杂逻辑。
- 从 LLM 注释中生成的小模型降低了对成本高昂的 LLM 推理的依赖。
- 具有查询分组和迭代工具调用的数据访问模块在显著降低成本的同时提升了准确性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。