Skip to main content
QUICK REVIEW

[论文解读] Revisiting Prompt Engineering via Declarative Crowdsourcing

Aditya Parameswaran, Shreya Shankar|arXiv (Cornell University)|Aug 7, 2023
Natural Language Processing Techniques被引用 10
一句话总结

本文提出将 LLMs 视为嘈杂的 oracle 并借用声明性众包原则,提出声明性提示工程,以产出成本-与质量感知、带多步骤的数据处理工作流。

ABSTRACT

Large language models (LLMs) are incredibly powerful at comprehending and generating data in the form of text, but are brittle and error-prone. There has been an advent of toolkits and recipes centered around so-called prompt engineering-the process of asking an LLM to do something via a series of prompts. However, for LLM-powered data processing workflows, in particular, optimizing for quality, while keeping cost bounded, is a tedious, manual process. We put forth a vision for declarative prompt engineering. We view LLMs like crowd workers and leverage ideas from the declarative crowdsourcing literature-including leveraging multiple prompting strategies, ensuring internal consistency, and exploring hybrid-LLM-non-LLM approaches-to make prompt engineering a more principled process. Preliminary case studies on sorting, entity resolution, and imputation demonstrate the promise of our approach

研究动机与目标

  • 以生产数据工作流为目标,推动提示工程的原则性、声明性方法。
  • 借鉴声明性众包的思路,将任务分解为带有成本与准确性预算的单元 LLM 调用。
  • 探索多样化提示、混合粗到细的提示,以及一致性保障等策略,以提升可靠性与效率。
  • 在排序、实体解析、缺失值插补等案例上展示该方法。

提出的方法

  • 围绕一个工具包(如 LangChain)构建一个包装器概念,在预算和准确性约束下对数据集应用数据原语(排序、筛选、连接、分类、聚类、查找、填充、解析)。
  • 将 crowdsourcing 原则应用于 LLM 工作流,包括任务分解、一致性保障,以及混合非 LLM 代理以管理成本-准确性权衡。
  • 评估提示策略(单任务、成对比较、评分)用于排序,以比较准确性-成本曲线。
  • 提出粗到细的提示(先排序再插入)以处理大型项集合并减少幻觉。
  • 为批量任务如实体解析引入内部一致性检查(可传递性强制)以提高准确性。
  • 讨论混合 LLM/非 LLM 策略(如 k-NN 代理、嵌入)在降低 LLM 使用同时保持准确性的做法。
  • 概述受 Crowdsourcing 启发的质量控制机制(验证集、跨 LLM 检查、去偏、校准)。

实验结果

研究问题

  • RQ1如何将声明性众包原则应用于提示工程,以在 LLM 驱动的数据工作流中改进成本与准确性的权衡。
  • RQ2哪些提示策略和任务分解能为封闭式数据任务带来更好的可扩展性和可靠性。
  • RQ3混合粗到细提示与一致性保障能否在降低成本的同时减少幻觉并保持或提高准确性。
  • RQ4如何将非 LLM 代理和质量控制技术整合,以优化生产工作流中对 LLM 的使用。

主要发现

  • 成对提示用于排序在成本更高但比基线单提示方法具有更高的准确性。
  • 粗到细混合提示(排序,然后插入)在大规模项集上显著提升准确性并减少遗漏。
  • 通过对成对比较施加内部一致性(可传递性强制)在实体解析任务中提高 F1 分数。
  • 将非 LLM 代理(如 k-NN、嵌入)与 LLM 的混合方法在显著降低 LLM 使用成本的同时实现相似的准确性。
  • 质量控制机制和基于验证的准确性估计支持自适应查询策略以平衡成本与准确性。
  • 实证案例研究显示不同策略的成本-准确性曲线各异,强调探索多种任务分解的价值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。