Skip to main content
QUICK REVIEW

[論文レビュー] ChatGPT is not a pocket calculator -- Problems of AI-chatbots for teaching Geography

Simon Scheider, Harm Bartholomeus|arXiv (Cornell University)|Jul 3, 2023
Multimodal Machine Learning Applications被引用数 7
ひとこと要約

要約:本論文は ChatGPT の地理学および GIScience の大学レベル試験問題への回答品質を評価し、多くの評価を通過できることを示し、教学における妥当性と監督のあり方に及ぼす影響を論じる。

ABSTRACT

The recent success of large language models and AI chatbots such as ChatGPT in various knowledge domains has a severe impact on teaching and learning Geography and GIScience. The underlying revolution is often compared to the introduction of pocket calculators, suggesting analogous adaptations that prioritize higher-level skills over other learning content. However, using ChatGPT can be fraudulent because it threatens the validity of assessments. The success of such a strategy therefore rests on the assumption that lower-level learning goals are substitutable by AI, and supervision and assessments can be refocused on higher-level goals. Based on a preliminary survey on ChatGPT's quality in answering questions in Geography and GIScience, we demonstrate that this assumption might be fairly naive, and effective control in assessments and supervision is required.

研究の動機と目的

  • AI チャットボットが地理学・GIScience の評価の妥当性に及ぼす潜在的脅威を評価する。
  • ChatGPT の回答品質(正確さ・網羅性・明確さ・簡潔さ)を、大学の試験・課題問題に対して評価する。
  • ChatGPT の成績が Blooms の分類階層および教育レベルでどのように変化するかを分析する。
  • AI チャットボット時代における評価の公正性と監督の維持戦略を論じる。)

提案手法

  • 大学の地理学/GIScience 教員が ChatGPT に質問を投げ、正確さ・網羅性・明確さ・簡潔さの観点で回答を評価する survey を設計する。
  • 質問の動詞使用から修正版 taxonomy(Remembering/Remember など)に基づいて各質問を Blooms の改訂分類に分類する。
  • 知識領域、教育レベル(学士・修士等)、Blooms レベル別に結果を分析する。
  • Wilcoxon の順位和検定を用いて Blooms レベル間の正確さと網羅性の差を評価する。
  • 評価実践と監督・環境・チャットボット使用禁止などの統制の可能性と示唆を論じる。

実験結果

リサーチクエスチョン

  • RQ1ChatGPT は Blooms の分類階層にわたる大学レベルの地理学・GIScience 問題にどの程度回答できるか。
  • RQ2回答品質指標(正確さ・網羅性・明確さ・簡潔さ)は、講義の教育レベルや Blooms レベルで変動するか。
  • RQ3ChatGPT の成績は地理学・GIScience の評価の妥当性にどのような影響を与えるか。
  • RQ4AI チャットボットの存在下で評価の一体性を維持する戦略は何か。

主な発見

  • 80% のケースで ChatGPT の回答は試験や課題の合格を可能にする(正確さの閾値)。
  • 約 74% の回答は同じ閾値内で網羅性が満たされ、約 74% が明確である。
  • 簡潔さのスコアは低く、約 47% が望ましい簡潔さを達成。
  • より高い Blooms レベル(分析・評価・創造)は、低いレベルより正確さと網羅性が低下する傾向だが、依然として合格閾値を超える場合が多い。
  • 教育レベルが高くなるほど品質が明確に低下するとは言えない(BSc vs MSc)。
  • 本結果は、地理学・GIScience の評価妥当性に対する ChatGPT の脅威を示唆しており、評価設計や監督の変更が必要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。