Skip to main content
QUICK REVIEW

[论文解读] Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems

Ernest Davis, Scott Aaronson|arXiv (Cornell University)|Aug 10, 2023
Computational Physics and Python Applications被引用 9
一句话总结

本文在105个原创数学与科学题目上评估了带有 Wolfram Alpha 和 Code Interpreter 插件的 GPT-4,并讨论了优点、界面故障,以及需要更好插件整合的问题。

ABSTRACT

This report describes a test of the large language model GPT-4 with the Wolfram Alpha and the Code Interpreter plug-ins on 105 original problems in science and math, at the high school and college levels, carried out in June-August 2023. Our tests suggest that the plug-ins significantly enhance GPT's ability to solve these problems. Having said that, there are still often "interface" failures; that is, GPT often has trouble formulating problems in a way that elicits useful answers from the plug-ins. Fixing these interface failures seems like a central challenge in making GPT a reliable tool for college-level calculation problems.

研究动机与目标

  • 在高中及大学水平的原创科学与数学题目上,使用 WA 与 CI 插件评估 GPT-4 的表现。
  • 在有结构化问题集的比较中,将带插件的 GPT-4 与仅有 GPT-4 进行对比。
  • 识别插件辅助问题求解的具体优势与劣势。
  • 记录界面失败,并提出提高基于插件的计算任务可靠性的建议。

提出的方法

  • 创建了三个原创题集:Arbitrary Numerical, Calculation-Free, and Motivated Numerical。
  • 在前三个数据集的前两个上,分别使用 Wolfram Alpha (GPT4+WA) 和 Code Interpreter (GPT4+CI) 对 GPT-4 进行了测试。
  • 问题在独立会话中运行,以避免跨题干污染,并进行仔细标注和人工评估。
  • 结果在分类的科学与数学任务上包含定性与定量评分。
  • 该研究比较输出与错误类型(如错误的分析和对问题的误解)以评估可靠性。

实验结果

研究问题

  • RQ1在所草拟的问题集上,带 WA 或 CI 的 GPT-4 是否优于仅有 GPT-4?
  • RQ2在让 GPT-4 调用插件时,常见的界面失败有哪些,它们如何影响问题求解?
  • RQ3在哪些题型中,插件提供最大帮助或未能可靠贡献?
  • RQ4WA 与 CI 如何在数值、符号和空间推理任务中补充或重复 GPT-4 的能力?

主要发现

  • 在测试的问题上,带任一插件的 GPT-4 通常比单独的 GPT-4 表现更好。
  • 界面失败很常见,尤其是在为插件构造问题时,降低了可靠性。
  • 插件在可被单一公式求解的问题上最强,在空间可视化或多步多领域计算上较弱。
  • GPT-4 有时进行的计算或符号运算,插件本应更可靠地完成。
  • 由于测试集规模小且不可重复,所报告的分数在统计上并不具有决定性,但还是显示出 WA 和 CI 的显著优点与不足。
  • 两种插件均显示互补的优点与不足,且在所有任务中都没有明确优于对方。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。