Skip to main content
QUICK REVIEW

[論文レビュー] Can ChatGPT pass the Vietnamese National High School Graduation Examination?

Xuan-Quy Dao, Ngoc-Bich Le|arXiv (Cornell University)|Jun 15, 2023
Artificial Intelligence in Healthcare and Education被引用数 32
ひとこと要約

本論文は ChatGPT をベトナム国家高等学校卒業試験(VNHSGE)で試験し、科目ごとの平均が6–7で合格可能と示唆し、科目によってパフォーマンスにばらつきがあることを示した。

ABSTRACT

This research article highlights the potential of AI-powered chatbots in education and presents the results of using ChatGPT, a large language model, to complete the Vietnamese National High School Graduation Examination (VNHSGE). The study dataset included 30 essays in the literature test case and 1,700 multiple-choice questions designed for other subjects. The results showed that ChatGPT was able to pass the examination with an average score of 6-7, demonstrating the technology's potential to revolutionize the educational landscape. The analysis of ChatGPT performance revealed its proficiency in a range of subjects, including mathematics, English, physics, chemistry, biology, history, geography, civic education, and literature, which suggests its potential to provide effective support for learners. However, further research is needed to assess ChatGPT performance on more complex exam questions and its potential to support learners in different contexts. As technology continues to evolve and improve, we can expect to see the use of AI tools like ChatGPT become increasingly common in educational settings, ultimately enhancing the educational experience for both students and educators.

研究の動機と目的

  • 教育分野における AI の推進を目的として、VNHSGE という高リスク試験で ChatGPT を評価する。
  • ベトナムのデータセットを用いて複数科目を ChatGPT が扱えるかを評価する。
  • ChatGPT の成績を人間の学習者分布やこれまでの OpenAI 試験結果と比較する。
  • 教育における AI 支援の学習・評価への影響を論じる。

提案手法

  • VNHSGE 評価セットを使用する(数学、英語、物理、化学、生物、歴史、地理、倫理教育、文学などの複数科目)。
  • OpenAI API を介して構造化された回答形式でゼロショット prompting を適用する。
  • 人間の正解解と比較した二値正誤指標で回答を採点する。
  • 文部省の式を用いて総合合格点(GAS)を算出し、2019–2023年を比較する。
  • 科目別の成績をベトナム人学生の分布や他の AI 評価ケースと比較する。

実験結果

リサーチクエスチョン

  • RQ1ChatGPT はベトナム国家高等学校卒業試験(VNHSGE)を合格できるか。
  • RQ2VNHSGE の各科目における ChatGPT の成績はどう変化するか。
  • RQ3VNHSGE での ChatGPT の成績は他の標準化試験やベトナム人学生の得点分布とどう比較されるか。

主な発見

  • ChatGPT は年次と科目をまたぐ平均スコア範囲を示し、全体的な GAS スコアで自然科・社会科クラスの合格可能性を示唆している(6.35–6.94)。
  • 2019–2023 年の科目別に、英語が一般に最高、化学が一般に最低となる形で平均スコアは 4.8 〜 7.92 の範囲。
  • 英語の成績は多くのベトナム人学生と比較して一貫して高い(平均 7.6–8.6)。
  • 数学、物理、生物、歴史、地理、文学は科目ごとに差はあるが全体的に競争力のある結果を示した;化学は複数年で後れを取ることがあった。
  • 他の試験と比較して、VNHSGE での ChatGPT のパフォーマンスは英語・文学などの一部領域で同等か優れているが、数学・化学では一部ベンチマークに劣る場合がある;地理は GPT-3.5 による画像・グラフ分析の制約の影響を受けた。
  • 全体として、スコアリング式により ChatGPT は VNHSGE を合格すると判断され、教育ツールおよびプロンプトベースの試験アシスタントとしての潜在性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。