[論文レビュー] Exploring Durham University Physics exams with Large Language Models
GPT-4 と GPT-3.5 は、AI 能力と試験の公正性を評価するために、ダラム大学の物理学試験42回(593問、2504点)で評価された。GPT-4 の平均は 49.4%、GPT-3.5 の平均は 38.6%、COVID後には緩やかな低下。
The emergence of advanced Natural Language Processing (NLP) models like ChatGPT has raised concerns among universities regarding AI-driven exam completion. This paper provides a comprehensive evaluation of the proficiency of GPT-4 and GPT-3.5 in answering a set of 42 exam papers derived from 10 distinct physics courses, administered at Durham University over the span of 2018 to 2022, totalling 593 questions and 2504 available marks. These exams, spanning both undergraduate and postgraduate levels, include traditional pre-COVID and adaptive COVID-era formats. Questions from the years 2018-2020 were designed for pre-COVID in person adjudicated examinations whereas the 2021-2022 exams were set for varying COVID-adapted conditions including open-book conditions. To ensure a fair evaluation of AI performances, the exams completed by AI were assessed by the original exam markers. However, due to staffing constraints, only the aforementioned 593 out of the total 1280 questions were marked. GPT-4 and GPT-3.5 scored an average of 49.4\% and 38.6\%, respectively, suggesting only the weaker students would potential improve their marks if using AI. For exams from the pre-COVID era, the average scores for GPT-4 and GPT-3.5 were 50.8\% and 41.6\%, respectively. However, post-COVID, these dropped to 47.5\% and 33.6\%. Thus contrary to expectations, the change to less fact-based questions in the COVID era did not significantly impact AI performance for the state-of-the-art models such as GPT-4. These findings suggest that while current AI models struggle with university-level Physics questions, an improving trend is observable. The code used for automated AI completion is made publicly available for further research.
研究の動機と目的
- 大学物理のAI支援試験回答のリスクを動機づけ、定量化する。
- 実在のダラム物理実験(2018–2022)に対する最先端LLM(GPT-4とGPT-3.5)の性能を評価する。
- 再現性のある透明な方法論とオープンソースツールを提供し、再現とさらなる研究を可能にする。
提案手法
- 講義スタイルの LaTeX ソースファイルから正規表現を用いて個別の問を自動抽出する。
- GPT-3.5 による整形と LaTeX エラー訂正で入力をコンパイル可能にする。
- OpenAI API に質問を送信し、システムプロンプトで物理学教授の役割を想定し、LaTeX 形式の回答を作成させる。
- AI の出力を各試験ごとの PDF に編纂し、元の科目の採点者により採点させる。
- LaTeX の再コンパイルを最大3回まで試行し、コンパイル失敗と問別アクセス問題を記録する。
- 抽出した問と解答の手動検証を行い、スクリプトの信頼性を確保する;再現性のため GitHub でコードを共有する。
実験結果
リサーチクエスチョン
- RQ1GPT-4 と GPT-3.5 は複数のコースとレベルを横断してダラム大学物理試験で非自明な得点を達成するか。
- RQ2COVID前(対面)とCOVID後(オープンブック/リモート適応)試験形式でAIの性能はどのように異なるか。
- RQ3AIの性能は試験レベル(レベル1–4)や科目タイプによって変わるか。
- RQ4高得点・低得点に関連する要因は何か(例:図表の有無、説明を求める指示、数学的表現)。
主な発見
- GPT-4 は 593 問中 49.4%、GPT-3.5 は 38.6% の平均。
- COVID以前の平均は GPT-4 が 50.8%、GPT-3.5 が 41.6% 。
- COVID後の平均は GPT-4 が 47.5%、GPT-3.5 が 33.6% 。
- GPT-4 はすべての試験タイプで GPT-3.5 を上回り、Foundation of Physics 3A と Theoretical Astrophysics で特に近い結果となった。
- ゼロ点を除外すると非零の挑戦でAIの性能は GPT-4 が 65.6%、GPT-3.5 が 56.7% へ上昇する。
- 本研究は再現のためのオープンソースコードを提供し、モデルの改善に伴うAIリスクの継続的評価を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。