[论文解读] ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing
本文评估GPT-4在三项任务中的评阅辅助作用——错误发现、清单核对和摘要对比——发现对特定任务有前景,但尚未适用于完整评审。它还提供了一个小型LLM评估的数据集用于同行评审研究。
Given the rapid ascent of large language models (LLMs), we study the question: (How) can large language models help in reviewing of scientific papers or proposals? We first conduct some pilot studies where we find that (i) GPT-4 outperforms other LLMs (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), and (ii) prompting with a specific question (e.g., to identify errors) outperforms prompting to simply write a review. With these insights, we study the use of LLMs (specifically, GPT-4) for three tasks: 1. Identifying errors: We construct 13 short computer science papers each with a deliberately inserted error, and ask the LLM to check for the correctness of these papers. We observe that the LLM finds errors in 7 of them, spanning both mathematical and conceptual errors. 2. Verifying checklists: We task the LLM to verify 16 closed-ended checklist questions in the respective sections of 15 NeurIPS 2022 papers. We find that across 119 {checklist question, paper} pairs, the LLM had an 86.6% accuracy. 3. Choosing the "better" paper: We generate 10 pairs of abstracts, deliberately designing each pair in such a way that one abstract was clearly superior than the other. The LLM, however, struggled to discern these relatively straightforward distinctions accurately, committing errors in its evaluations for 6 out of the 10 pairs. Based on these experiments, we think that LLMs have a promising use as reviewing assistants for specific reviewing tasks, but not (yet) for complete evaluations of papers or proposals.
研究动机与目标
- 激励/探究在稿件持续增加的背景下,LLMs是否能够缓解同行评审的工作量。
- 在带有故意缺陷的简短论文中,评估GPT-4识别错误的能力。
- 评估LLMs在核对作者提供的核对清单与真实标准的一致性方面的准确性。
- 测试LLMs在对比摘要中是否能选出更优论文。
- 提供一个小型数据集,以便未来评估LLMs在评审任务中的表现。
提出的方法
- 对多种LLMs(GPT-4、Bard、Vicuna、Koala、Alpaca、LLaMa、Dolly、OpenAssistant、StableLM)在错误发现方面进行初步比较。
- 开发三种提示策略(Prompt-Direct、Prompt-OneShot、Prompt-Parts)以引出有针对性的评审行为。
- 构造13篇带有故意错误的简短计算机科学论文以测试GPT-4的错误检测能力。
- 对15篇论文(119对)中的NeurIPS 2022清单中的16条问题进行评估,以衡量LLM核对的准确性。
- 创建10对设计为优越的摘要对,以测试LLM挑选更好论文的能力。
- 对结果进行分析,识别LLMs在评审工作流中的优势、局限性及潜在角色。
实验结果
研究问题
- RQ1LLMs是否能在人工带有缺陷的计算机科学论文中识别错误?
- RQ2LLMs在多大程度上能准确核对作者提供的提交清单?
- RQ3LLMs是否能在摘要对之间的一致地选出更好的论文?
- RQ4在不进行完整评审的情况下,LLMs在特定评审任务上的总体潜力如何?
主要发现
- GPT-4在13篇带有故意缺陷的简短论文中识别出错误7处。
- 在119对(清单项、论文)上,LLM在使用3次回答的多数结论时准确率为86.6%。
- 在10对摘要中,LLM在可靠识别较优摘要方面存在困难,6对未达标。
- 其他模型未在这13篇论文中发现错误,且有些给出无用的批评。
- 以有针对性的问题进行提示比要求给出完整评审更能得到有用的评审。
- LLMs在特定任务上作为评审助手显示出潜力,但尚不能独立完成全面评审。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。