Skip to main content
QUICK REVIEW

[論文レビュー] Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models

Sarah Zhang, Samuel Florin|arXiv (Cornell University)|Jun 15, 2023
Oil and Gas Production Techniques被引用数 18
ひとこと要約

本論文は MIT Math および EECS から 4,550 問題のデータセットを構築し、LLMs が卒業要件を満たす能力を評価するとともに、自動採点と問題埋め込みを通じてカリキュラムの洞察を明らかにします。

ABSTRACT

We curate a comprehensive dataset of 4,550 questions and solutions from problem sets, midterm exams, and final exams across all MIT Mathematics and Electrical Engineering and Computer Science (EECS) courses required for obtaining a degree. We evaluate the ability of large language models to fulfill the graduation requirements for any MIT major in Mathematics and EECS. Our results demonstrate that GPT-3.5 successfully solves a third of the entire MIT curriculum, while GPT-4, with prompt engineering, achieves a perfect solve rate on a test set excluding questions based on images. We fine-tune an open-source large language model on this dataset. We employ GPT-4 to automatically grade model responses, providing a detailed performance breakdown by course, question, and answer type. By embedding questions in a low-dimensional space, we explore the relationships between questions, topics, and classes and discover which questions and classes are required for solving other questions and classes through few-shot learning. Our analysis offers valuable insights into course prerequisites and curriculum design, highlighting language models' potential for learning and improving Mathematics and EECS education.

研究の動機と目的

  • MIT Mathematics および EECS の卒業要件に対して LLMs の評価を動機づける。
  • MIT の講義から問題と解答の総合的なデータセットを作成する。
  • MIT の問題の解答と採点における GPT-3.5 および GPT-4 の性能を評価する。
  • 低次元埋め込みと few-shot 学習を通じてカリキュラム間の関係を探る。
  • カリキュラム設計への洞察とLLMs の潜在的な教育応用を提供する。

提案手法

  • MIT Math および EECS の講義から 4,550 問題と解答のデータセットを作成する。
  • カリキュラム全体の問題解決における GPT-3.5 および GPT-4 を評価する。
  • データセット上でオープンソースLLMをファインチューニングする。
  • GPT-4 を使用してモデルの回答を自動採点し、コース、問題、回答タイプ別に性能を分解する。
  • 問題、トピック、クラス間の関係を分析するために低次元空間に問題を埋め込む。
  • 前提条件と跨クラス解法性を評価するために few-shot 学習を適用する。

実験結果

リサーチクエスチョン

  • RQ1LLMs は MIT Mathematics および EECS 全体の問題を解決して卒業要件を満たすことができるか。
  • RQ2GPT-3.5 および GPT-4 は MIT の問題セットデータの解決にどの程度の性能を示すか。
  • RQ3オープンソース LLM のファインチューニングは MIT の問題解決タスクへの適合性を改善するか。
  • RQ4埋め込みベースの分析は前提条件の構造とカリキュラム設計について何を示すか。
  • RQ5GPT-4 による自動採点は詳細なコース単位の性能洞察を提供できるか。

主な発見

  • GPT-3.5 は MIT のカリキュラムの約3分の1 を解く。
  • GPT-4 はプロンプトエンジニアリングを用いて、画像ベースの問題を除くテストセットで完解率を達成する。
  • データセット上でオープンソース LLM をファインチューニングすることは実現可能で有益である。
  • GPT-4 はモデルの回答を自動採点でき、コース、問題、回答タイプ別の性能内訳を提供する。
  • 低次元埋め込みは問題、トピック、クラス間の関係を明らかにし、few-shot 学習を通じて前提条件の構造を特定するのに役立つ。
  • 分析はカリキュラム設計と学習における LLM の役割、数学および EECS 教育の向上に関する洞察を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。