[논문 리뷰] Unreflected Acceptance -- Investigating the Negative Consequences of ChatGPT-Assisted Problem Solving in Physics Education
연구는 물리학 학부생이 ChatGPT를 사용할 때 그 답에 과다 신뢰하고, 질의어를 복사-붙여넣으며, 검색 엔진을 사용하는 학생들보다 물리 문제를 더 못 푸는 경향이 있음을 보여 주며, 교육에서 LLM 사용의 moderated, reflective 필요성을 강조한다.
Large language models (LLMs) have recently gained popularity. However, the impact of their general availability through ChatGPT on sensitive areas of everyday life, such as education, remains unclear. Nevertheless, the societal impact on established educational methods is already being experienced by both students and educators. Our work focuses on higher physics education and examines problem solving strategies. In a study, students with a background in physics were assigned to solve physics exercises, with one group having access to an internet search engine (N=12) and the other group being allowed to use ChatGPT (N=27). We evaluated their performance, strategies, and interaction with the provided tools. Our results showed that nearly half of the solutions provided with the support of ChatGPT were mistakenly assumed to be correct by the students, indicating that they overly trusted ChatGPT even in their field of expertise. Likewise, in 42% of cases, students used copy & paste to query ChatGPT -- an approach only used in 4% of search engine queries -- highlighting the stark differences in interaction behavior between the groups and indicating limited reflection when using ChatGPT. In our work, we demonstrated a need to (1) guide students on how to interact with LLMs and (2) create awareness of potential shortcomings for users.
연구 동기 및 목표
- STEM 학생들 사이에서 ChatGPT 접근이 물리 문제 해결 성능에 어떤 영향을 미치는지 평가한다.
- ChatGPT와 전통적 검색 엔진 사용 간의 인터랙션 전략 및 반성을 비교한다.
- 물리 문제에 LLM을 사용할 때 과신 및 비판적 평가 저하의 위험을 식별한다.
- LLM 기반 교육 보조 도구의 moderated, 인식 중심 설계 방향을 제안한다.
제안 방법
- 두 조건의 피실험자 간 설계: ChatGPT 접속(N=27)과 인터넷 검색 엔진 접속(N=12).
- 주 작업 이전의 물리 지식 평가를 위한 사전검사; 학교 지식으로 해결 가능한 물리 문제 네 가지로 구성된 주된 검사.
- ChatGPT 대 검색 결과의 성능, 상호작용 프로토콜, 지각된 정합성의 분석.
- 프롬프트와 응답에서의 상호작용 유형(복사-붙여넣기, 전처리, 후처리, 변환)에 대한 코딩.
- 전환 인터뷰 및 설문지를 통해 전략, 반성, 사용성 인식을 파악.
실험 결과
연구 질문
- RQ1RQ1: ChatGPT 접속이 검색 엔진에 비해 물리 문제에서 학생의 수행에 어떤 영향을 미치는가?
- RQ2RQ2: ChatGPT를 사용할 때와 검색 엔진을 사용할 때 어떤 해결 전략과 상호작용 패턴이 나타나는가?
- RQ3RQ3: 학생들은 ChatGPT가 생성한 답의 정합성을 전문가 판단과 비교해 어떻게 인식하는가?
- RQ4RQ4: 이러한 상호작용 패턴이 moderated LLM 기반 교육 도구 설계에 어떤 시사점을 주는가.
주요 결과
- ChatGPT 사용자는 12점 만점 중 평균 1.04점을 받았고, 검색 엔진 사용자는 1.83점을 평균으로 받았다; ChatGPT 성능은 유의하게 더 낮았다 (F(1,37)=5.5, p=.02, η2=.13).
- 대략 57%의 ChatGPT 답변이 학생들에 의해 잘못 정답으로 평가되었음(거짓 양성률), 반면 올바른 답변의 91%가 양성으로 평가되었다(참 양성률).
- 복사-붙여넣기 방식이 지배적 상호작용으로, ChatGPT에서 84개의 프롬프트에 사용되었고 반성의 한계를 야기했다; 이에 반해 검색 프롬프트의 96%는 키워드를 사용하는 체계적 프롬프트였다.
- 전문가의 이견에도 불구하고 학생들이 ChatGPT가 제공한 해결책의 절반 가까이가 올바르다고 믿었으며, 이는 과신과 LLM 출력에 대한 비반성적 수용을 나타낸다.
- 인터뷰에서 전략의 다양성과 비판적 사고를 지원하고 무비판적 의존을 피하도록 정보에 기반한 moderated 사용의 필요성이 드러났다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.