[論文レビュー] AI and the FCI: Can ChatGPT Project an Understanding of Introductory Physics?
tldr: 本論文は変更済みの Force Concept Inventory を用いて二つの ChatGPT バージョン(3.5 と 4)を評価し、導入物理学における概念理解を評価する。3.5 は典型的な第一学期生程度、4 は力学の質問に対して専門家レベルの性能に近づくことを示している。
ChatGPT is a groundbreaking ``chatbot"--an AI interface built on a large language model that was trained on an enormous corpus of human text to emulate human conversation. Beyond its ability to converse in a plausible way, it has attracted attention for its ability to competently answer questions from the bar exam and from MBA coursework, and to provide useful assistance in writing computer code. These apparent abilities have prompted discussion of ChatGPT as both a threat to the integrity of higher education and conversely as a powerful teaching tool. In this work we present a preliminary analysis of how two versions of ChatGPT (ChatGPT3.5 and ChatGPT4) fare in the field of first-semester university physics, using a modified version of the Force Concept Inventory (FCI) to assess whether it can give correct responses to conceptual physics questions about kinematics and Newtonian dynamics. We demonstrate that, by some measures, ChatGPT3.5 can match or exceed the median performance of a university student who has completed one semester of college physics, though its performance is notably uneven and the results are nuanced. By these same measures, we find that ChatGPT4's performance is approaching the point of being indistinguishable from that of an expert physicist when it comes to introductory mechanics topics. After the completion of our work we became aware of Ref [1], which preceded us to publication and which completes an extensive analysis of the abilities of ChatGPT3.5 in a physics class, including a different modified version of the FCI. We view this work as confirming that portion of their results, and extending the analysis to ChatGPT4, which shows rapid and notable improvement in most, but not all respects.
研究の動機と目的
- ChatGPT が FCI を通じて入門物理学における概念理解を示せるかを評価する。
- ChatGPT3.5 と ChatGPT4 の性能を人間の学生と専門家と比較する。
- プロンプト設計と問題の修正がモデルの応答に与える影響を検討する。
提案手法
- 30項目の Force Concept Inventory (FCI) の修正済みかつテキストのみの版を用いて ChatGPT を テストする。
- 図表に依存する問題をテキストで記述した prompts に変換し、ChatGPT3.5 および 4 が処理できるようにする。
- BASIC および NOVICE プロンプト形式で質問を出題し、推論と回答の安定性を評価する。
- 選択式の正答率と定性的な説明を分析して、見かけ上の理解と正答との差を評価する。
- 大規模な入門物理学コースの歴史的な学生のポストテスト分布とモデルの結果を比較する。
実験結果
リサーチクエスチョン
- RQ1Can ChatGPT produce correct responses to conceptual kinematics and Newtonian dynamics questions as measured by the FCI?
- RQ2How do ChatGPT3.5 and ChatGPT4 compare in accuracy and depth of reasoning on introductory physics concepts?
- RQ3To what extent does prompt framing (BASIC vs NOVICE) and question modification (textual descriptions of figures) affect performance?
主な発見
- ChatGPT3.5 は BASIC prompting で 23 件中 15 件の使用可能な FCI アイテムに正しく回答した。
- ChatGPT4 は BASIC prompting で 23 件中 22 件の使用可能な FCI アイテムに正しく回答し、空気抵抗を無視する等の特定の仮定下でアイテム 26 を見逃した。
- ChatGPT4 の初等力学トピックに対する性能は BASIC prompting の下で専門家物理学者レベルに近い。
- ChatGPT3.5 の自由回答の説明は、23 件中 10 件で完全に正しく、他のケースでは概ね正しいが誤りもあった。
- ChatGPT3.5 は図を含む空間推論の問題で顕著な弱点を示したのに対し、ChatGPT4 はこれらの問題の大半を解消した。
- 結果は、ChatGPT が理解しているように見せることができ、3.5 から 4 へと急速に改善することを示す過去の研究と一致する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。