Skip to main content
QUICK REVIEW

[论文解读] TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks

Shubhra Kanti Karmaker Santu, Dongji Feng|arXiv (Cornell University)|May 19, 2023
Text Readability and Simplification被引用 9
一句话总结

本文提出 TELeR,一种用于提示LLMs执行复杂任务的四维分类法(Turn、Expression、Level of Details、Role),实现跨研究的标准化基准。并展示两个使用案例以说明提示分类,并倡导报告提示类别以实现有意义的比较。

ABSTRACT

While LLMs have shown great success in understanding and generating text in traditional conversational settings, their potential for performing ill-defined complex tasks is largely under-studied. Indeed, we are yet to conduct comprehensive benchmarking studies with multiple LLMs that are exclusively focused on a complex task. However, conducting such benchmarking studies is challenging because of the large variations in LLMs' performance when different prompt types/styles are used and different degrees of detail are provided in the prompts. To address this issue, the paper proposes a general taxonomy that can be used to design prompts with specific properties in order to perform a wide range of complex tasks. This taxonomy will allow future benchmarking studies to report the specific categories of prompts used as part of the study, enabling meaningful comparisons across different studies. Also, by establishing a common standard through this taxonomy, researchers will be able to draw more accurate conclusions about LLMs' performance on a specific complex task.

研究动机与目标

  • 在基准未知定义、复杂任务的LLMs时,激发对标准化 prompts 的需求。
  • 提出一个通用分类法,按 Turn、Expression、Level of Details 和 Role(TELeR)对提示进行分类。
  • 通过将提示锚定到共同标准,展示 TELeR 如何实现有意义的跨研究比较。
  • 展示实际使用案例(元评审生成与叙事编排)以说明在 TELeR 下对提示进行分类的应用性。

提出的方法

  • 定义对复杂任务至关重要的提示工程因素,包括任务规范细节、上下文和交互风格。
  • 基于四个维度:Turn、Expression、Role 和 Level of Details(0-6)开发 TELeR 分类法。
  • 解释将 Directive 与 Data 与 TELeR 维度相结合如何产生多样化的提示配置。
  • 提供两个复杂任务在不同层级上的示例提示,以说明该分类法的适用性。
Figure 1: Proposed Prompt Taxonomy: TELeR (< T urn, E xpression, Le vel of Details, R ole>)
Figure 1: Proposed Prompt Taxonomy: TELeR (< T urn, E xpression, Le vel of Details, R ole>)

实验结果

研究问题

  • RQ1一个通用分类法(TELeR)能否将描述复杂任务提示的方式在LLM基准测试中标准化?
  • RQ2TELeR 维度如何影响LLM在未定义、抽象、多步骤任务上的性能?
  • RQ3TELeR 能否实现独立基准测试之间的 apples-to-apples 比较?
  • RQ4实际使用案例(元评审生成与叙事编排)是否能展示该分类法在提示分类中的实用性?

主要发现

  • TELeR 提供统一标准以对提示进行分类,并促成对复杂任务的跨研究有意义的比较。
  • 提示设计的核心因素——Turn、Expression、Level of Details 和 Role——推动复杂任务中的性能差异。
  • 基于层级的细化(0 到 6)捕捉指令的粒度,从而影响结果。
  • 两个使用案例展示 TELeR 分类如何映射到元评审生成和叙事编排的提示。
  • 作者提倡报告所使用的精确提示类别,以提升跨研究的可重复性和可比性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。