QUICK REVIEW

[論文レビュー] AI Meets the Classroom: When Do Large Language Models Harm Learning?

Matthias Lehmann, Philipp B. Cornelius|arXiv (Cornell University)|Aug 29, 2024

Artificial Intelligence in Healthcare and Education被引用数 5

ひとこと要約

この論文は、ChatGPTのような大規模言語モデル（LLM）へのアクセスがコーディング教育における学習にどのように影響するかを調査し、説明のために使用すると学習を促進できる一方、解答を提供するために使用すると学習に害を及ぼす可能性があることを発見し、事前知識の少ない学生ほど負の影響が強い。

ABSTRACT

The effect of large language models (LLMs) in education is debated: Previous research shows that LLMs can help as well as hurt learning. In two pre-registered and incentivized laboratory experiments, we find no effect of LLMs on overall learning outcomes. In exploratory analyses and a field study, we provide evidence that the effect of LLMs on learning outcomes depends on usage behavior. Students who substitute some of their learning activities with LLMs (e.g., by generating solutions to exercises) increase the volume of topics they can learn about but decrease their understanding of each topic. Students who complement their learning activities with LLMs (e.g., by asking for explanations) do not increase topic volume but do increase their understanding. We also observe that LLMs widen the gap between students with low and high prior knowledge. While LLMs show great potential to improve learning, their use must be tailored to the educational context and students' needs.

研究の動機と目的

現場と実験室の設定を横断して、LLMへのアクセスがコーディング教育における学習成果に与える影響を検討する。
説明ベースの使用と解決志向の使用の機序を特定し、コピー＆ペースト機能の役割を明らかにする。
学生の能力と事前知識による異質性を評価する。
LLM使用下の認知的学習進捗と実際の学習進捗を検討する。
落とし穴を緩和しつつ、学習支援としてのLLMsの活用に関する政策上の指針を提供する。

提案手法

観察的な現場データと2つの奨励付き・事前登録済み実験室実験を組み合わせた三研究デザイン。
二つの大学プログラミング講義を用いた現場データ分析で、二要因固定効果モデルと工具変数を用いる。
LLMの使用の測定は、学生のコードとChatGPT生成コードの類似度を使用の代理指標として用いる。
因果効果と機序を検証するために、LLMアクセスとコピー＆ペースト機能の実験的操作を行う。
事前登録と停電ベースのIVを用いてLLM使用の外生的ばらつきを特定する。
標準化された事前・学習・事後テストを用いたPythonプログラミング課題で学習進捗を測定する。

AI Meets the Classroom: When Do Large Language Models Harm Learning?

実験結果

リサーチクエスチョン

RQ1LLMへのアクセスは、チューターや説明者として使用されるとコーディングの学習成果を改善するか。
RQ2解決志向を促進するLLMの使用はその後の学習に悪影響を及ぼすか。
RQ3事前のコーディング知識はLLM使用の効果とどのように相互作用するか。
RQ4LLMsを使用する際、学生は自分の学習進捗をどの程度過大評価するか。

主な発見

変数	係数（Grade）	標準誤差
ChatGPT Similarity	0.18	0.05
Cum. ChatGPT Similarity	-0.02	0.00
Plagiarism	0.15	0.03
Cum. Plagiarism	0.00	0.00
Questions Answered	0.00	0.00
Avg. Grade	0.04	0.04
Time Taken	0.00	0.00
Cum. Time Taken	-0.00	0.00
Constant	0.79	0.05
F-statistic	7.64	NA
R^2	0.29	NA

LLM生成の説明は学習を向上させる一方、LMMを用いた演習問題の解決はその後の学習を妨げる可能性がある。
現場データでは、現在の質問へのChatGPT解答が成績を上げる一方、累積的なChatGPT類似性が後の成績に悪影響を及ぼす。
工具変数分析は、累積的なChatGPT使用が学習に負の影響を与えることを確認し、過度の依存に対する頑健な負の学習効果を示唆する。
成績が劣る学生はLLMアクセスの利得をより受ける、事前の能力の異質性の知見と一致している。
参加者は実際の進捗より高い認識的学習進捗を報告しており、LLM支援学習に対する過信を示している。
研究3（完全には示されていない）は機序をさらに特定し、適切に使用された場合にLLMsが有効な学習支援となる可能性を支持している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。