QUICK REVIEW

[论文解读] Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems

Ernest Davis, Scott Aaronson|arXiv (Cornell University)|Aug 10, 2023

Computational Physics and Python Applications被引用 9

一句话总结

本文在105个原创数学与科学题目上评估了带有 Wolfram Alpha 和 Code Interpreter 插件的 GPT-4，并讨论了优点、界面故障，以及需要更好插件整合的问题。

ABSTRACT

This report describes a test of the large language model GPT-4 with the Wolfram Alpha and the Code Interpreter plug-ins on 105 original problems in science and math, at the high school and college levels, carried out in June-August 2023. Our tests suggest that the plug-ins significantly enhance GPT's ability to solve these problems. Having said that, there are still often "interface" failures; that is, GPT often has trouble formulating problems in a way that elicits useful answers from the plug-ins. Fixing these interface failures seems like a central challenge in making GPT a reliable tool for college-level calculation problems.

研究动机与目标

在高中及大学水平的原创科学与数学题目上，使用 WA 与 CI 插件评估 GPT-4 的表现。
在有结构化问题集的比较中，将带插件的 GPT-4 与仅有 GPT-4 进行对比。
识别插件辅助问题求解的具体优势与劣势。
记录界面失败，并提出提高基于插件的计算任务可靠性的建议。

提出的方法

创建了三个原创题集：Arbitrary Numerical, Calculation-Free, and Motivated Numerical。
在前三个数据集的前两个上，分别使用 Wolfram Alpha (GPT4+WA) 和 Code Interpreter (GPT4+CI) 对 GPT-4 进行了测试。
问题在独立会话中运行，以避免跨题干污染，并进行仔细标注和人工评估。
结果在分类的科学与数学任务上包含定性与定量评分。
该研究比较输出与错误类型（如错误的分析和对问题的误解）以评估可靠性。

实验结果

研究问题

RQ1在所草拟的问题集上，带 WA 或 CI 的 GPT-4 是否优于仅有 GPT-4？
RQ2在让 GPT-4 调用插件时，常见的界面失败有哪些，它们如何影响问题求解？
RQ3在哪些题型中，插件提供最大帮助或未能可靠贡献？
RQ4WA 与 CI 如何在数值、符号和空间推理任务中补充或重复 GPT-4 的能力？

主要发现

在测试的问题上，带任一插件的 GPT-4 通常比单独的 GPT-4 表现更好。
界面失败很常见，尤其是在为插件构造问题时，降低了可靠性。
插件在可被单一公式求解的问题上最强，在空间可视化或多步多领域计算上较弱。
GPT-4 有时进行的计算或符号运算，插件本应更可靠地完成。
由于测试集规模小且不可重复，所报告的分数在统计上并不具有决定性，但还是显示出 WA 和 CI 的显著优点与不足。
两种插件均显示互补的优点与不足，且在所有任务中都没有明确优于对方。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。