Skip to main content
QUICK REVIEW

[論文レビュー] Evaluation of ChatGPT and Microsoft Bing AI Chat Performances on Physics Exams of Vietnamese National High School Graduation Examination

Dao Xuan-Quy, Ngoc-Bich Le|arXiv (Cornell University)|Jun 7, 2023
Online Learning and Analytics被引用数 30
ひとこと要約

本研究は、ベトナム全国高校卒業試験の物理問題(2019–2023)に対するChatGPTとBingChatの評価を行い、両方のLLMがベトナムの学生より劣る一方で高レベルの応用問題に苦戦することを示す。ただしBingChatは全般的により正確で、ChatGPTはより安定性と教育上の潜在性を示す。

ABSTRACT

The promise and difficulties of language model-based approaches for physics teaching were assessed in this study. This study evaluates how well ChatGPT and BingChat, two state-of-the-art (SOTA) large language models (LLMs), perform when answering high school physics questions on Vietnamese exams from 2019 to 2023. When we compared the results of the LLMs with the scores of Vietnamese students, we discovered that ChatGPT and BingChat both perform worse than Vietnamese students, proving that LLMs are not yet capable of fully replacing human intellect in the field of physics teaching. The outcomes also showed that neither LLM is capable of responding to questions at the high application levels. In terms of accuracy, BingChat typically surpassed ChatGPT, although ChatGPT showed more stability. Our research suggests that LLMs can help students and teachers during learning and teaching activities, particularly by offering immediate feedback and individualized learning experiences.

研究の動機と目的

  • 最新のLLM(ChatGPTとBingChat)のベトナム高校物理試験における能力を評価する。
  • VNHSGE物理データセット(2019–2023)におけるLLMの成績を実際のベトナムの学生の成果と比較する。
  • ベトナムの物理教育におけるLLMの長所・限界・潜在的な教育利用を特定する。
  • フィードバックと個別学習を通じて教師と学習者をどのように支援できるかに関する洞察を提供する。

提案手法

  • 2019–2023の実際の試験からの40問を各試験含むVNHSGEデータセットを利用し、難易度4レベルと多様なトピックを含む。
  • 知識(易)・理解(中級)・適用(難)・高等な適用(非常に難)のレベルに分類して推論要件を評価する。
  • サンプル問題を英語に翻訳し、知識・理解・適用・高等な適用タスクに関するLLMの応答を分析する。
  • LLMの出力をベトナムの学生の成績分布(2019–2022)と比較して相対的な能力を評価する。
  • 正確性・安定性・異なるタスクレベルの処理能力などの定性的側面と、フィードバック・個別化学習の教育上の利点を評価する。
  • 高レベルの物理推論におけるLLMの制限と教室での利用への影響を論じる。

実験結果

リサーチクエスチョン

  • RQ1ChatGPTとBingChatは、実際の学生の結果と比較してベトナムの高校物理の問題でどう評価されるか?
  • RQ2LLMは難易度レベルを通じて十分な正確さを示すか、特に高い適用項目で?
  • RQ3どのモデルがより正確または安定しており、どの条件下でそうか?
  • RQ4ベトナムの物理教育を支援するためにLLMを使用する教育的利点や欠点は?
  • RQ5ベトナムの物理教育にLLMを統合する実務的な影響は?

主な発見

  • ChatGPTとBingChatは、VNHSGEの物理問題でベトナムの学生よりも劣る。
  • どちらのモデルも高い適用レベルの質問に対して信頼性のある回答を出せない。
  • BingChatは一般にChatGPTより正確性が高いが、ChatGPTは質問全体でより安定性を示す。
  • LLMsには即時フィードバックや個別化された学習体験を通じて学習と教育を支援する潜在性があるが、人間の指導を置換するものではない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。