[论文解读] Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems
本文在105个原创数学与科学题目上评估了带有 Wolfram Alpha 和 Code Interpreter 插件的 GPT-4,并讨论了优点、界面故障,以及需要更好插件整合的问题。
This report describes a test of the large language model GPT-4 with the Wolfram Alpha and the Code Interpreter plug-ins on 105 original problems in science and math, at the high school and college levels, carried out in June-August 2023. Our tests suggest that the plug-ins significantly enhance GPT's ability to solve these problems. Having said that, there are still often "interface" failures; that is, GPT often has trouble formulating problems in a way that elicits useful answers from the plug-ins. Fixing these interface failures seems like a central challenge in making GPT a reliable tool for college-level calculation problems.
研究动机与目标
- 在高中及大学水平的原创科学与数学题目上,使用 WA 与 CI 插件评估 GPT-4 的表现。
- 在有结构化问题集的比较中,将带插件的 GPT-4 与仅有 GPT-4 进行对比。
- 识别插件辅助问题求解的具体优势与劣势。
- 记录界面失败,并提出提高基于插件的计算任务可靠性的建议。
提出的方法
- 创建了三个原创题集:Arbitrary Numerical, Calculation-Free, and Motivated Numerical。
- 在前三个数据集的前两个上,分别使用 Wolfram Alpha (GPT4+WA) 和 Code Interpreter (GPT4+CI) 对 GPT-4 进行了测试。
- 问题在独立会话中运行,以避免跨题干污染,并进行仔细标注和人工评估。
- 结果在分类的科学与数学任务上包含定性与定量评分。
- 该研究比较输出与错误类型(如错误的分析和对问题的误解)以评估可靠性。
实验结果
研究问题
- RQ1在所草拟的问题集上,带 WA 或 CI 的 GPT-4 是否优于仅有 GPT-4?
- RQ2在让 GPT-4 调用插件时,常见的界面失败有哪些,它们如何影响问题求解?
- RQ3在哪些题型中,插件提供最大帮助或未能可靠贡献?
- RQ4WA 与 CI 如何在数值、符号和空间推理任务中补充或重复 GPT-4 的能力?
主要发现
- 在测试的问题上,带任一插件的 GPT-4 通常比单独的 GPT-4 表现更好。
- 界面失败很常见,尤其是在为插件构造问题时,降低了可靠性。
- 插件在可被单一公式求解的问题上最强,在空间可视化或多步多领域计算上较弱。
- GPT-4 有时进行的计算或符号运算,插件本应更可靠地完成。
- 由于测试集规模小且不可重复,所报告的分数在统计上并不具有决定性,但还是显示出 WA 和 CI 的显著优点与不足。
- 两种插件均显示互补的优点与不足,且在所有任务中都没有明确优于对方。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。