[論文レビュー] FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI
FrontierMath は、現代の MSC2020 トピックにわたる数百の原著・未発表の高度な数学問題を自動検証とともに提供し、AI の専門家レベルの数学的推論に向けた進捗を厳密に評価します。現状のSOTAモデルは問題の解決率が2%未満です。
We introduce FrontierMath, a benchmark of hundreds of original, exceptionally challenging mathematics problems crafted and vetted by expert mathematicians. The questions cover most major branches of modern mathematics -- from computationally intensive problems in number theory and real analysis to abstract questions in algebraic geometry and category theory. Solving a typical problem requires multiple hours of effort from a researcher in the relevant branch of mathematics, and for the upper end questions, multiple days. FrontierMath uses new, unpublished problems and automated verification to reliably evaluate models while minimizing risk of data contamination. Current state-of-the-art AI models solve under 2% of problems, revealing a vast gap between AI capabilities and the prowess of the mathematical community. As AI systems advance toward expert-level mathematical abilities, FrontierMath offers a rigorous testbed that quantifies their progress.
研究の動機と目的
- 高校・大学前期レベルの材料に焦点を当てる既存の数学ベンチマークの飽和を是正する。
- 新規・未発表の問題のみを使用することによってデータの汚染を緩和する。
- AIモデルのスケーラブルなベンチマークを可能にする自動化され、検証可能な評価を提供する。
- 厳密な問題作成と検証を伴う、広範な現代数学(MSC2020)を網羅する。
提案手法
- 60人以上の数学者が分野横断的に共同で原著の問題を数百問創出。
- コードやSymPyオブジェクトで検証可能な一意の整数解または記号解を持つ問題を設計することで自動検証性を担保。
- 推測耐性基準を組み込み、偶然の成功を減らし真の推論を保証。
- 標準的なハードウェアで1分以内に動作する計算的に扱いやすい検証スクリプトを要求。
- 品質を保証し汚染を防ぐため、ブラインド査読や独創性チェックを含む独立した多段階検証プロセスを実装。

実験結果
リサーチクエスチョン
- RQ1現代数学全般において、現在のAIモデルにとって高度な数学問題はどれほど難しいか?
- RQ2未発表で検証可能な問題のベンチマークは、研究レベルの数学におけるモデル能力を正確に区別できるか?
- RQ3FrontierMath でのAIの成功率は既存のベンチマークと比べてどの程度で、数学的推論におけるAIの進歩は何を意味するか?
- RQ4難易度評価やメタデータが分野横断でのモデル性能を予測するうえでどれくらい信頼できるか?
主な発見
- AIモデルは完全ベンチマークの FrontierMath 問題の2%未満を解く。
- このベンチマークは問題全体で98%以上が未解決の状態を維持しており、既存のベンチマークを超える高難度を示している。
- 自動検証は迅速で客観的な評価を可能にし、データ汚染を最小化する。
- 六つの主要モデルは低精度を示し、リピートで少なくとも一度解けた問題に対していくらかのばらつきがある。
- 解かれたケースにおける解法の挙動を示す書き起こしとサンプルは公開されています。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。