[论文解读] Unreflected Acceptance -- Investigating the Negative Consequences of ChatGPT-Assisted Problem Solving in Physics Education
本研究显示,使用 ChatGPT 的物理学学生对其回答过度信任,复制粘贴查询,在物理题目上的表现比使用搜索引擎的学生更差,强调在教育中需要对大语言模型的使用进行 moderated、反思性的引导。
Large language models (LLMs) have recently gained popularity. However, the impact of their general availability through ChatGPT on sensitive areas of everyday life, such as education, remains unclear. Nevertheless, the societal impact on established educational methods is already being experienced by both students and educators. Our work focuses on higher physics education and examines problem solving strategies. In a study, students with a background in physics were assigned to solve physics exercises, with one group having access to an internet search engine (N=12) and the other group being allowed to use ChatGPT (N=27). We evaluated their performance, strategies, and interaction with the provided tools. Our results showed that nearly half of the solutions provided with the support of ChatGPT were mistakenly assumed to be correct by the students, indicating that they overly trusted ChatGPT even in their field of expertise. Likewise, in 42% of cases, students used copy & paste to query ChatGPT -- an approach only used in 4% of search engine queries -- highlighting the stark differences in interaction behavior between the groups and indicating limited reflection when using ChatGPT. In our work, we demonstrated a need to (1) guide students on how to interact with LLMs and (2) create awareness of potential shortcomings for users.
研究动机与目标
- 评估 ChatGPT 访问如何影响 STEM 学生在物理题目求解中的表现。
- 比较使用 ChatGPT 与传统搜索引擎在交互策略与反思方面的差异。
- 识别在物理题目中使用大型语言模型时过度信任与较差批判性评估的风险。
- 提出对受控、具备意识信息的 LLM 基础教育辅助工具设计的方向。
提出的方法
- 两组被试设计:ChatGPT 访问(N=27)和互联网搜索引擎访问(N=12)。
- 在主任务前进行预试,以评估物理知识;主测试包含四道可用学校知识解决的物理题。
- 对 ChatGPT 与搜索结果的表现、交互协议及感知正确性进行分析。
- 对提示与应答中的交互类型(复制粘贴、预处理、后处理、转换)进行编码。
- 通过退出访谈和问卷捕捉策略、反思与可用性认知。
实验结果
研究问题
- RQ1RQ1:相较于搜索引擎,ChatGPT 访问如何影响学生在物理题目上的表现?
- RQ2RQ2:使用 ChatGPT 与搜索引擎时,会出现哪些解题策略与交互模式?
- RQ3RQ3:学生如何将 ChatGPT 生成的答案的正确性与专家判断进行对比感知?
- RQ4RQ4:这些交互模式对设计受控的 LLM 辅助教育工具有何启示?
主要发现
- 使用 ChatGPT 的用户平均得分为 1.04/12,而搜索引擎用户平均为 1.83 分;ChatGPT 的表现显著下滑 (F(1,37)=5.5, p=.02, η2=.13)。
- 约 57% 的 ChatGPT 答案被学生错误标记为正确(假阳性率),而正确答案中有 91% 被标记为正向(真正阳性率)。
- 复制粘贴是主导交互,在84个 ChatGPT 提示中使用,导致反思有限;相比之下,96% 的搜索提示是使用关键词的系统性提示。
- 近一半的 ChatGPT 提供的解答被学生认为正确,尽管专家存在不同意见,表明过度信任和对 LLM 输出缺乏反思性接受。
- 访谈揭示策略的变异性,以及需要知情、受控的使用以支持批判性思维,而非无批判性依赖。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。