Skip to main content
QUICK REVIEW

[論文レビュー] ChatGPT Participates in a Computer Science Exam

Sebastian Bordt, Ulrike von Luxburg|arXiv (Cornell University)|Mar 8, 2023
Artificial Intelligence in Healthcare and Education被引用数 31
ひとこと要約

本論文は、ChatGPTが学部生のCS試験に参加した実験評価を報告しており、20.5/40でぎりぎり合格(GPT-4は約24点へと約17%の改善)となり、強力なパフォーマンスにもかかわらず真の理解には限界があることを示唆している。

ABSTRACT

We asked ChatGPT to participate in an undergraduate computer science exam on ''Algorithms and Data Structures''. The program was evaluated on the entire exam as posed to the students. We hand-copied its answers onto an exam sheet, which was subsequently graded in a blind setup alongside those of 200 participating students. We find that ChatGPT narrowly passed the exam, obtaining 20.5 out of 40 points. This impressive performance indicates that ChatGPT can indeed succeed in challenging tasks like university exams. At the same time, the questions in our exam are structurally similar to those of other exams, solved homework problems, and teaching materials that can be found online and might have been part of ChatGPT's training data. Therefore, it would be inadequate to conclude from this experiment that ChatGPT has any understanding of computer science. We also assess the improvements brought by GPT-4. We find that GPT-4 would have obtained about 17\% more exam points than GPT-3.5, reaching the performance of the average student. The transcripts of our conversations with ChatGPT are available at \url{https://github.com/tml-tuebingen/chatgpt-algorithm-exam}, and the entire graded exam is in the appendix of this paper.

研究の動機と目的

  • ChatGPTが実在人間の学生と共にブラインド評価設定で実在の学部CS試験を適切に解けるかを評価する。
  • GPT-3.5とGPT-4の標準化されたアルゴリズムとデータ構造の試験におけるパフォーマンスの差を評価する。
  • 教育的文脈でChatGPTの試験解答の限界と解釈性を探る。
  • 教育的ベンチマークにおけるAI能力の理解への影響を論じる。

提案手法

  • LaTeX形式のテキストとして出題された標準的な学部 Algorithms and Data Structures 試験を使用する。
  • 簡単なプロンプトで19回の対話を通じてChatGPTに19問を出題し、チェーンオブソートを用いない prompting を行う。
  • ChatGPTの回答を試験用紙に手で転記し、200人の学生の答案とブラインド評価できるようにする。
  • 10人のティーチングアシスタントが、混合セットの用紙を1つの部屋でブラインド条件下で評価する。
  • GPT-3.5の結果とGPT-4の結果を比較するため、GPT-4ベースモデルと非ブラインド評価で同じ手順を繰り返す。

実験結果

リサーチクエスチョン

  • RQ1ブラインド評価条件下で現代の大規模言語モデルは標準化された学部CS試験に合格できるか。
  • RQ2同じ試験に対するGPT-4とGPT-3.5のパフォーマンスはどう異なるか。
  • RQ3モデルにとって最も難しいのはどのタイプの問題(例:証明、疑似コード、グラフ)か。
  • RQ4この試験でのパフォーマンスは genuine understanding を反映しているか、それとも訓練データへの依存か。
  • RQ5AI支援教育における限界と潜在的影響は何か。

主な発見

  • ChatGPTは40点中20.5点を獲得し、GPT-3.5のブラインド評価条件下でぎりぎり合格した。
  • GPT-4はGPT-3.5より約17%多くの点を獲得し、この試験の平均的な学生のパフォーマンスに達していた。
  • GPT-4は難易度の高い選択問題と特定のグラフ関連タスクで改善したが、グラフ描画と疑似コード以外の構造的出力に苦戦した。
  • 疑似コードと動的計画法の問題には強さが見られた一方、標準アルゴリズムの説明やグラフ構造を含む複数の問題は依然として難しかった。
  • 総じて、ChatGPTの成功は人間のようなコンピュータサイエンスの理解を意味しない。問題はオンライン教育材料や訓練データに現れた解法問題に似ている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。