[論文レビュー] Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems
本論は、GPT-4 を Wolfram Alpha および Code Interpreter プラグインを用いて 105 の元の数学・科学問題を評価し、長所、インターフェースの障害、そしてより良いプラグイン統合の必要性を考察する。
This report describes a test of the large language model GPT-4 with the Wolfram Alpha and the Code Interpreter plug-ins on 105 original problems in science and math, at the high school and college levels, carried out in June-August 2023. Our tests suggest that the plug-ins significantly enhance GPT's ability to solve these problems. Having said that, there are still often "interface" failures; that is, GPT often has trouble formulating problems in a way that elicits useful answers from the plug-ins. Fixing these interface failures seems like a central challenge in making GPT a reliable tool for college-level calculation problems.
研究の動機と目的
- WA および CI プラグインを使用して、高校・大学レベルの元の科学・数学問題に対する GPT-4 の性能を評価する。
- 構造化された問題集合において、プラグイン付きの GPT-4 と GPT-4 単独を比較する。
- プラグイン支援による問題解決の具体的な強みと弱みを特定する。
- インターフェースの障害を記録し、プラグインベースの計算タスクの信頼性を向上させる提案を示す。
提案手法
- 3 つの元の問題セットを作成した:Arbitrary Numerical、Calculation-Free、Motivated Numerical。
- 最初の 2 つのデータセットについて、GPT-4 は Wolfram Alpha (GPT4+WA) および Code Interpreter (GPT4+CI) でテストし、3 番目はその後に実施した。
- 問題は混同を避けるため別セッションで実行し、慎重な注釈と手動評価を行った。
- 結果は、分類された科学・数学タスクに対する定性的および定量的スコアリングを含む。
- 信頼性を評価するため、出力と誤分析や問題の誤解といったエラーの種類を比較する。
実験結果
リサーチクエスチョン
- RQ1草案の問題セットに対して、WA または CI を搭載した GPT-4 は GPT-4 単独より優れているか?
- RQ2GPT-4 でプラグインを呼び出す際に一般的なインターフェースの障害は何か、それらは問題解決にどう影響するか?
- RQ3どのような問題タイプでプラグインが最大の利益をもたらすか、または信頼性を欠くか?
- RQ4WA と CI は数値・記号・空間推論タスクにおいて GPT-4 の能力を補完するか、あるいは重複するか?
主な発見
- いずれのプラグインを用いても、テスト対象の問題において GPT-4 単独より一般的に良い性能を示す。
- インターフェースの障害は一般的であり、特にプラグイン用の問題を定式化する際に信頼性を低下させる。
- プラグインは単一の式で解ける問題で最も強力であり、空間的な可視化や多段階・複数分野の計算では弱い。
- GPT-4 は時にプラグインがより信頼性高く実行できる計算や記号操作を行うことがある。
- 報告されたスコアは、サンプルが小さく再現性がないため統計的には確定的ではないが、WA および CI の顕著な長所と弱点を示唆している。
- 両方のプラグインは補完的な長所と弱点を示し、すべてのタスクでどちらが明確に優れているとは言えない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。