[論文レビュー] Advances in apparent conceptual physics reasoning in GPT-4
この論文はGPT-4のForce Concept Inventory (FCI)に対する性能を評価し、GPT-4による概念物理学推論をほぼ専門家レベルで示し、GPT-3.5と比較しつつ、限界と教育的含意について論じる。
ChatGPT is built on a large language model trained on an enormous corpus of human text to emulate human conversation. Despite lacking any explicit programming regarding the laws of physics, recent work has demonstrated that GPT-3.5 could pass an introductory physics course at some nominal level and register something close to a minimal understanding of Newtonian Mechanics on the Force Concept Inventory. This work replicates those results and also demonstrates that the latest version, GPT-4, has reached a much higher mark in the latter context. Indeed, its responses come quite close to perfectly demonstrating expert-level competence, with a few very notable exceptions and limitations. We briefly comment on the implications of this for the future of physics education and pedagogy.
研究の動機と目的
- Force Concept Inventory (FCI)を用いてGPT-4が概念的ニュートン力学理解を示す能力を評価する。
- GPT-4の性能をGPT-3.5および人間の学生ベンチマークと比較する。
- promptsと摂動下でのモデル応答の安定性と推論品質を調査する。
提案手法
- 本質的な物理タスクを保持しつつ、テキストのみの prompts に合わせてFCI項目を改変する。
- 2024年2月20日以降にGPT-3.5へ30問のFCIを、GPT-4へ2024年3月16日以降に prompts で回答と簡潔な説明を求めて実施する。
- 回答の選択肢を評価し、自由回答の説明が正確さと推論を示すかを分析する。
- 回答を再生成して入力テキストを摂動することで応答の安定性を評価する。
- 大学の学生の分布と歴史的なGPT-3.5の結果と比較する。

実験結果
リサーチクエスチョン
- RQ1GPT-4がFCIで測定される概念物理タスクに対して専門家のような性能を達成できるか?
- RQ2GPT-4はFCI項目における正確さと説明の質でGPT-3.5とどのように比較されるか?
- RQ3 promptsが再生成されたり僅かな摂動が加えられたりした場合、GPT-4とGPT-3.5の安定性特性はどうなるか?
- RQ4GPT-4は初学者の思考様式や非標準的な問題設定の再現においてどのような限界を示すか?
- RQ5AIの物理教育への影響は何か?
主な発見
- GPT-3.5: 初回試行で15/30正解(50%)、60%の最低ベンチマークに近い。
- GPT-4: 初回試行で28/30正解、19と26を欠く。
- GPT-4の仮想の学生に対する学習増分は g = 86.7%。
- GPT-4の回答は、プロンプト再生成や入力摂動の下で概ね安定しており、GPT-3.5とは異なる。
- GPT-4の自由回答のうち10件は完全に正解だった;26件は専門家レベルの正解で若干の誤りを含んでいた;1件はGPT-3.5の項目19と類似した顕著な誤りだった。
- GPT-4は専門家に似た概念的推論を示すが、初学者の認知を完全には再現できず、いくつかのプロンプトで非標準的な言語表現には苦労する。
- GPT-4の限界には、初学者の推論を取り入れることへの抵抗と、非標準のプロンプトでの低い性能が含まれる。標準的な物理学トーンを用いたプロンプトでない限り。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。