[論文レビュー] FrontierScience: Evaluating AI's Ability to Perform Expert-Level Scientific Tasks
FrontierScience は二経路ベンチマーク(Olympiad と Research)を導入し、AI の推論を評価する専門家レベルの物理・化学・生物学問題を数百題提供。GPT-5.2 は Olympiad で首位(77%)、Research で遅れ(25%)。
We introduce FrontierScience, a benchmark evaluating expert-level scientific reasoning in frontier language models. Recent model progress has nearly saturated existing science benchmarks, which often rely on multiple-choice knowledge questions or already published information. FrontierScience addresses this gap through two complementary tracks: (1) Olympiad, consisting of international olympiad problems at the level of IPhO, IChO, and IBO, and (2) Research, consisting of PhD-level, open-ended problems representative of sub-tasks in scientific research. FrontierScience contains several hundred questions (including 160 in the open-sourced gold set) covering subfields across physics, chemistry, and biology, from quantum electrodynamics to synthetic organic chemistry. All Olympiad problems are originally produced by international Olympiad medalists and national team coaches to ensure standards of difficulty, originality, and factuality. All Research problems are research sub-tasks written and verified by PhD scientists (doctoral candidates, postdoctoral researchers, or professors). For Research, we introduce a granular rubric-based evaluation framework to assess model capabilities throughout the process of solving a research task, rather than judging only a standalone final answer.
研究の動機と目的
- 制約された Olympiad とオープンエンドな Research のタスク全般にわたる専門家レベルの科学的推論能力を評価する。
- 難易度と独創性を確保するため、分野専門家により検証された新規の専門家作成問題を提供する。
- オープンエンドの研究タスクに対するルーブリックベースの評価フレームワークを導入し、モデルの強みと弱点を診断する。
提案手法
- Two-track dataset: FrontierScience-Olympiad with short-answer, problem-solving questions; FrontierScience-Research with PhD-level, open-ended subproblems.
- Problems written and verified by domain experts across physics, chemistry, and biology; each Research problem includes a 10-point rubric and explanatory solution path.
- Rubric-based grading for Research tasks to assess intermediate reasoning and final answers, using model judges (GPT-5) for scoring.
- Evaluation uses multiple frontier models under high reasoning effort, with 20 trials for Olympiad and 30 trials for Research; model judgments are performed by a GPT-5-based judge.
- Open-source gold set: 100 Olympiad questions and 60 Research questions after meta-review and filtering from larger corpora.

実験結果
リサーチクエスチョン
- RQ1閉形式または数値/表現可能な解を持つ Olympiad 風の物理・化学・生物学の問題を frontier AI モデルはどれだけ上手く解けるか。
- RQ2推論・正当化・ルーブリックベースの評価を要求する博士レベルのオープンエンド研究サブ問題を frontier AI モデルはどれだけ扱えるか。
- RQ3制約された科学タスクとオープンエンドな科学タスクの間で、現行 frontier モデルの長所と失敗モードは何か。
- RQ4各トラック内でのディシプリン(物理・化学・生物学)別のモデル性能の差はどれくらいか。
主な発見
- GPT-5.2 は FrontierScience の tested モデルの中で全体的に最高のパフォーマンスを示し、Olympiad 問題で 77%、Research 問題で 25%。
- Gemini 3 Pro は Olympiad 問題で GPT-5.2 に匹敵する(76%)、研究セットでは GPT-5 が GPT-5.2 に並ぶ(25%)。
- Olympiad 問題では化学が最も高く、次いで物理、最後に生物学。Research では化学がリードし、続いて生物学・物理。
- 検証時のトークン数を増やすと GPT-5.2 のパフォーマンスが向上(Olympiad: 67.5% から 77.1%、Research: 18% から 25%)。
- 評価パイプラインは Research タスクにルーブリックベースのスコアリング構造を使用し、Olympiad タスクには数値・表現一致で対応、GPT-5 ベースのジャッジがルーブリックの達成度を評価。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。