QUICK REVIEW

[论文解读] Can ChatGPT Pass An Introductory Level Functional Language Programming Course?

Chuqin Geng, Yihan Zhang|arXiv (Cornell University)|Apr 29, 2023

Artificial Intelligence in Healthcare and Education被引用 15

一句话总结

本论文在一个基于 OCaml 的入门函数式编程课程中将 ChatGPT 视为学生进行评估，结果总体成绩为 67%（B−），并在提示工程辅助提示下，班级排名从第 220 名提升到第 155 名。

ABSTRACT

The recent introduction of ChatGPT has drawn significant attention from both industry and academia due to its impressive capabilities in solving a diverse range of tasks, including language translation, text summarization, and computer programming. Its capability for writing, modifying, and even correcting code together with its ease of use and access is already dramatically impacting computer science education. This paper aims to explore how well ChatGPT can perform in an introductory-level functional language programming course. In our systematic evaluation, we treated ChatGPT as one of our students and demonstrated that it can achieve a grade B- and its rank in the class is 155 out of 314 students overall. Our comprehensive evaluation provides valuable insights into ChatGPT's impact from both student and instructor perspectives. Additionally, we identify several potential benefits that ChatGPT can offer to both groups. Overall, we believe that this study significantly clarifies and advances our understanding of ChatGPT's capabilities and potential impact on computer science education.

研究动机与目标

评估 ChatGPT 在基于 OCaml 的入门函数式编程课程中解决真实课程问题的能力。
将 ChatGPT 的表现与 2022 年秋季课程的实际学生结果进行比较。
探索提示工程技术对 ChatGPT 问题解决质量的影响。
调查 ChatGPT 在哪些主题上表现良好、在哪些方面存在困难（如类型推断）。
评估将 ChatGPT 用作学习或教学辅助的潜在优点与局限性。

提出的方法

将 ChatGPT 当作课程学生，完成 2022 年秋季（基于 OCaml 的课程）所有十项作业及相关考试题。
使用自助与受助（经过提示工程的）模式来评估表现。
将错误归类为语法、编译和逻辑等类别以分析失败原因。
应用四种提示工程技巧（改述、自然语言提示、通过示例教授、提供测试用例）以评估性能提升。
使用与人类学生相同的评分标准对 ChatGPT 的解答打分，并比较排名。
分析考试组成部分（概念性、代码完成、归纳证明）以评估对代码生成以外的理解。

实验结果

研究问题

RQ1在入门函数式编程课程中，ChatGPT 能否取得与真实学生相当的成绩？
RQ2在需要 OCaml 知识、递归、高阶函数和类型系统的作业和考试中，ChatGPT 的表现如何？
RQ3提示工程在多大程度上能提升 ChatGPT 的问题解决质量和课程排名？
RQ4在这一定教育环境中，ChatGPT 的优势（如编码任务）和劣势（如类型推断）是什么？

主要发现

在自助模式下，ChatGPT 获得总成绩 67%（B−），在辅助提示后在 314 名学生中排名第 155 名。
在自助模式下，ChatGPT 通过 31 道作业题中的 16 道，在高阶函数、尾递归、惰性编程和连续体方面表现较好，但在类型推断和如解释器等较大任务上存在困难。
辅助提示（改述、提示、示例和测试用例）提高了考试与作业表现，在两项实验中将期末考试分数从 64.4 提升到 81.0（未与其他总分比较），期中考试从 74.5 提升至 79.5。
辅助模式下的期末考试总分为 81.0，相较于自助的 64.4，在概念、代码完成和归纳证明等部分取得显著提升。
在辅助模式下排名提升（期末考试：自助第 170 名，辅助第 121 名；总分：自助第 220 名，辅助第 155 名）。
总体而言，ChatGPT 在生成许多 OCaml 问题的正确且简洁解答方面展现了相当的能力，但类型检查和大规模任务仍然具有挑战性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。