[論文レビュー] Can We Trust AI-Generated Educational Content? Comparative Analysis of Human and AI-Generated Learning Resources
この研究は、初学者向けプログラミングコースにおいて、AI生成コンテンツと学生生成コンテンツの学習リソースを比較し、盲検の学生評価を用いて知覚品質が同等であることを示します。AI生成コンテンツは模範を模倣し、長さと言語構文の使用において差異があります。
As an increasing number of students move to online learning platforms that deliver personalized learning experiences, there is a great need for the production of high-quality educational content. Large language models (LLMs) appear to offer a promising solution to the rapid creation of learning materials at scale, reducing the burden on instructors. In this study, we investigated the potential for LLMs to produce learning resources in an introductory programming context, by comparing the quality of the resources generated by an LLM with those created by students as part of a learnersourcing activity. Using a blind evaluation, students rated the correctness and helpfulness of resources generated by AI and their peers, after both were initially provided with identical exemplars. Our results show that the quality of AI-generated resources, as perceived by students, is equivalent to the quality of resources generated by their peers. This suggests that AI-generated resources may serve as viable supplementary material in certain contexts. Resources generated by LLMs tend to closely mirror the given exemplars, whereas student-generated resources exhibit greater variety in terms of content length and specific syntax features used. The study highlights the need for further research exploring different types of learning resources and a broader range of subject areas, and understanding the long-term impact of AI-generated resources on learning outcomes.
研究の動機と目的
- オンラインでパーソナライズされた学習環境において、スケーラブルで高品質な教育リソースの必要性を喚起する。
- AI生成リソースが正確性と有用性の点で学生生成コンテンツに匹敵するかを調査する。
- 同一の模範の下で、AI作成リソースと人間作成リソースの構造的・文体的差異を評価する。
- 計算機教育における補助リソースとしてのAI生成コンテンツの潜在的役割に関する証拠を提供する。
提案手法
- 6つの模範学習リソースを用いて、学生とLLM(Codex)を新しいコード例と説明を生成するためにプライムする。
- さまざまな模範セットのFew-shotプロンプトを用いて、AI生成のコード例を100件作成する。
- AIと学生リソースを共有リポジトリに挿入し、学生による盲目のピア評価を実施する。
- 数量的比較には Mann-Whitney U検定、カテゴリデータにはカイ二乗検定を適用する。
- 各グループ間で予約語(C のキーワード)、コードと説明の長さ、キーワードの使用状況を通じてリソースの網羅性を比較する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 同一のプライム模範を与えた場合、学生生成リソースとAI生成リソースは、全体の長さおよび構文特徴の有無の点でどのように異なるか。
- RQ2RQ2: 学生が生成したリソースとAI生成リソースの場合、正確さと有用性を学生はどのように評価するか。
主な発見
- AI生成リソースは学生生成リソースと同等の品質であると認識される(正確さと有用性の評価に基づく)。
- AI生成のコードは平均的に学生生成のコードより短くなる傾向がある一方、AIの説明は学生の説明より長い。
- AI生成リソースは与えられた模範を忠実に再現し、学生生成リソースは長さと構文特徴においてより大きな変動を示す。
- AI、教員、学生間での予約語の使用差(例: int, while, for, return)は統計的に有意であり、グループ間で異なるコーディングパターンを示す。
- AI生成と学生生成リソースの間で、全体的な品質判断や評価者の信頼度に統計的に有意な差は見られなかった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。