[论文解读] Mathematical Capabilities of ChatGPT
本文介绍了 GHOSTS 和 miniGHOSTS,一组用于基准测试 ChatGPT 版本(2023-01)和 GPT-4 的 graduate-level 数学推理的自然语言数据集,显示其 graduate-level 能力有限,但在作为数学检索/知识助手方面具有很大潜力。它提供了全面的评估框架,并讨论模型的弱点、随时间的改进以及对数学家实际集成的洞见。
We investigate the mathematical capabilities of two iterations of ChatGPT (released 9-January-2023 and 30-January-2023) and of GPT-4 by testing them on publicly available datasets, as well as hand-crafted ones, using a novel methodology. In contrast to formal mathematics, where large databases of formal proofs are available (e.g., the Lean Mathematical Library), current datasets of natural-language mathematics, used to benchmark language models, either cover only elementary mathematics or are very small. We address this by publicly releasing two new datasets: GHOSTS and miniGHOSTS. These are the first natural-language datasets curated by working researchers in mathematics that (1) aim to cover graduate-level mathematics, (2) provide a holistic overview of the mathematical capabilities of language models, and (3) distinguish multiple dimensions of mathematical reasoning. These datasets also test whether ChatGPT and GPT-4 can be helpful assistants to professional mathematicians by emulating use cases that arise in the daily professional activities of mathematicians. We benchmark the models on a range of fine-grained performance metrics. For advanced mathematics, this is the most detailed evaluation effort to date. We find that ChatGPT can be used most successfully as a mathematical assistant for querying facts, acting as a mathematical search engine and knowledge base interface. GPT-4 can additionally be used for undergraduate-level mathematics but fails on graduate-level difficulty. Contrary to many positive reports in the media about GPT-4 and ChatGPT's exam-solving abilities (a potential case of selection bias), their overall mathematical performance is well below the level of a graduate student. Hence, if your goal is to use ChatGPT to pass a graduate-level math exam, you would be better off copying from your average peer!
研究动机与目标
- 引入 GHOSTS 和 miniGHOSTS 数据集,以评估 大语言模型 的高级数学推理能力。
- 在多样化的研究生水平问题上对两个 ChatGPT 版本(2023-01-09 和 2023-01-30)以及 GPT-4 进行基准测试。
- 识别 ChatGPT 作为专业人员的数学助理的优势、失败模式和实际用途。
- 提供一个框架,用以跟踪模型迭代中的数学进展,并指导未来改进。
提出的方法
- 六个子数据集 (Grad-Text, Holes-in-Proofs, Olympiad-Problem-Solving, Symbolic-Integration, MATH, Search-Engine-Aspects) 用来测试各种数学技能。
- 用评分、错误码、警告和置信度标注输出;手动标注 1636 个专家评估。
- 使用 JSON 格式的数据点,包含提示和模型输出,以分析能力和失败模式。
- 对两种 ChatGPT 版本(9-Jan-2023 和 30-Jan-2023)以及 GPT-4 在 miniGHOSTS 和 GHOSTS 数据集上的表现进行比较。
- 采用全面的测试方法,包括警告和错误代码,以分类失败模式。
- 提供跨子数据集的定性与定量分析,包括跨领域表现和提示工程效应。
实验结果
研究问题
- RQ1ChatGPT 版本和 GPT-4 在各类任务上的研究生水平数学能力如何?
- RQ2ChatGPT 作为数学助手的具体优势和失败模式是什么?
- RQ3GPT-4 是否能扩展本科数学水平,而 ChatGPT 在研究生层面仍有困难?
- RQ4自 2023 年 1 月的版本到 GPT-4,模型性能如何演变?
- RQ5这些模型在实际中如何最有效地帮助专业数学家?
主要发现
- ChatGPT 版本在研究生级任务上表现有限,平均评分约为 3.2,并且在证明和复杂符号计算方面存在明显不足。
- GPT-4 在 miniGHOSTS 上表现更好,许多评分接近满分,但在完整的 GHOSTS 数据集上仍未达到研究生级别的掌握。
- GPT-4 远超 ChatGPT,尽管在许多任务上两者仍低于研究生水平。
- ChatGPT 作为数学检索引擎和知识库接口,在快速事实检索和上下文理解方面表现出色。
- 提示工程对复杂任务的提升仅为边际,GPT-4 常给出更长、冗长的回答,这既有助于也可能降低可读性。
- 总体而言,ChatGPT 更适合作为查找与组织的助手,而不是作为高级数学问题的唯一求解者。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。