[论文解读] Reporting LLM Prompting in Automated Software Engineering: A Guideline Based on Current Practices and Expectations
该论文实证分析在基于大语言模型的软件工程研究中 prompting 的报告方式,并提出一个基于证据的指南,区分必要、可取和例外的报告要素。
Large Language Models, particularly decoder-only generative models such as GPT, are increasingly used to automate Software Engineering tasks. These models are primarily guided through natural language prompts, making prompt engineering a critical factor in system performance and behavior. Despite their growing role in SE research, prompt-related decisions are rarely documented in a systematic or transparent manner, hindering reproducibility and comparability across studies. To address this gap, we conducted a two-phase empirical study. First, we analyzed nearly 300 papers published at the top-3 SE conferences since 2022 to assess how prompt design, testing, and optimization are currently reported. Second, we surveyed 105 program committee members from these conferences to capture their expectations for prompt reporting in LLM-driven research. Based on the findings, we derived a structured guideline that distinguishes essential, desirable, and exceptional reporting elements. Our results reveal significant misalignment between current practices and reviewer expectations, particularly regarding version disclosure, prompt justification, and threats to validity. We present our guideline as a step toward improving transparency, reproducibility, and methodological rigor in LLM-based SE research.
研究动机与目标
- 评估当前的 SE 研究在 LLM 基础研究中如何报告提示设计、测试与优化。
- 通过对 ICSE、FSE、ASE 的程序委员成员进行调查,捕捉评审对提示报告的期望。
- 识别当前实践与社区期望之间的差距,并提出一个结构化的报告指南。
提出的方法
- 开展两阶段的实证研究:对自 2022 年以来约 300 篇 SE 论文的文献分析,以及对 105 名 PC 成员的调查。
- 制定带有迭代轮次的编码/提取方案,以确保六位作者之间的一致性。
- 将实际报告实践与评审期望进行比较,推导出该指南。
- 在复制包中提供可复现实验数据与代码。
实验结果
研究问题
- RQ1RQ1: 研究者在 SE 研究论文中如何当前报告 prompts?
- RQ2RQ2: SE 研究者在提示创建、评估与报告方面的期望是什么?
- RQ3RQ3: 当前实践与这些期望的一致性有多大?
主要发现
- 大多数论文会注明所用的 LLM,但通常缺少具体版本(仅有 16.43% 指定精确版本)。
- 69.93% 的论文至少报告一个配置参数;温度和 token 限制是最常见的。
- 75.17% 完全或部分描述 prompts;69.58% 逐字提供 prompts;58.74% 为提示构建提供理由。
- 62.24% 报告提示工程技术;少样本提示和链式思维最为常见。
- 46.5% 提及提示微调;44.06% 描述多种提示变体;23.43% 将提示作为有效性威胁进行讨论。
- 经验性推导的指南揭示当前做法与评审期望之间的差距,强调需要提升透明度和可重复性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。