[論文レビュー] The Death of the Short-Form Physics Essay in the Coming AI Revolution
この論文は、OpenAIのGPT-3ベースのモデルが5つの300語の物理エッセイを生成でき、Durham Universityのモジュールで約71%の得点を獲得することを示唆しており、AI作成の短文エッセイが従来の評価方法を脅かす可能性があることを示しています。
The latest AI language modules can produce original, high quality full short-form ($300$-word) Physics essays within seconds. These technologies such as ChatGPT and davinci-003 are freely available to anyone with an internet connection. In this work, we present evidence of AI generated short-form essays achieving first-class grades on an essay writing assessment from an accredited, current university Physics module. The assessment requires students answer five open-ended questions with a short, $300$-word essay each. Fifty AI answers were generated to create ten submissions that were independently marked by five separate markers. The AI generated submissions achieved an average mark of $71 \pm 2 \%$, in strong agreement with the current module average of $71 \pm 5 %$. A typical AI submission would therefore most-likely be awarded a First Class, the highest classification available at UK universities. Plagiarism detection software returned a plagiarism score between $2 \pm 1$% (Grammarly) and $7 \pm 2$% (TurnitIn). We argue that these results indicate that current AI MLPs represent a significant threat to the fidelity of short-form essays as an assessment method in Physics courses.
研究の動機と目的
- AIテキスト生成が短文物理エッセイの評価 fidelityを脅かす懸念を動機づける。
- AI生成の短文エッセイが実在の大学モジュールで一等評価に達するかを評価する。
- AI生成エッセイと人間提出物の一貫性と検出可能性を特徴づける。
- 高等教育における評価設計と潜在的緩和策の意味を議論する。
提案手法
- Durham UniversityのPhysics in Societyモジュールの5つの開放型物理質問を評価の基礎として使用する(各提出物5つの質問、計5つの300語エッセイ)。
- OpenAI davinci-003 playgroundを用いて、質問に基づくプロンプトでAI作成提出物を10件生成する(1件あたり5問)
- 5人の独立採点者にAI提出物を採点してもらい、モジュールの平均と比較し、GrammarlyとTurnitinの盗用スコアを分析する。
- AI出力の例を提示し、討議的で独創的な応答を得るためのプロンプトエンジニアリングを議論する。
- 採点者間の合意と、今後のAIの講師やフィードバック提供者としての役割の可能性を評価する。
実験結果
リサーチクエスチョン
- RQ1AI言語モデルは認定された大学の評価で高得点を得る短文物理エッセイを作成できるか。
- RQ2AI生成のエッセイは人間の学生のパフォーマンスと比較して、平均点と採点の一貫性の点でどうか。
- RQ3AI作成のエッセイは標準的な盗用ツールで検出可能か、独創性とスタイルの点でどんな特性を持つか。
- RQ4AIの能力は高等教育の評価設計と学術的誠実性にどんな影響を与えるか。
主な発見
| 提出物 | TurnitIn (%) | Grammarly (%) |
|---|---|---|
| #1 | 9 | 1 |
| #2 | 8 | 2 |
| #3 | 7 | 1 |
| #4 | 7 | 0 |
| #5 | 6 | 2 |
| #6 | 6 | 3 |
| #7 | 7 | 1 |
| #8 | 9 | 2 |
| #9 | 5 | 1 |
| #10 | 10 | 2 |
- Ten AI-generated submissions (five questions each) averaged 71±2% across five markers.
- This AI average aligns with the Physics in Society module average (71±5%) and with Durham second-year physics module averages (72±3%).
- AI essays were consistently scored across markers, with marker averages 73.0±1.6, 72.6±2.0, 69±2, 70±2, and 70.6±1.9, indicating strong inter-marker agreement.
- AI plagiarism scores averaged 2±1% (Grammarly) and 7±2% (Turnitin), suggesting AI-written text can appear sufficiently original for typical university checks beyond the supplied questions.
- The results imply that current AI models can generate high-quality short-form physics essays at a First Class level, challenging the validity of short-form essays as an assessment method.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。