[論文レビュー] Towards Autonomous Mathematics Research
要約: 本論文は、自然言語で推論を生成・検証・改訂する数学研究エージェント「Aletheia」を紹介し、 autonomous AI数学の成果と透明性自律性分類を示す。
Recent advances in foundational models have yielded reasoning systems capable of achieving a gold-medal standard at the International Mathematical Olympiad. The transition from competition-level problem-solving to professional research, however, requires navigating vast literature and constructing long-horizon proofs. In this work, we introduce Aletheia, a math research agent that iteratively generates, verifies, and revises solutions end-to-end in natural language. Specifically, Aletheia is powered by an advanced version of Gemini Deep Think for challenging reasoning problems, a novel inference-time scaling law that extends beyond Olympiad-level problems, and intensive tool use to navigate the complexities of mathematical research. We demonstrate the capability of Aletheia from Olympiad problems to PhD-level exercises and most notably, through several distinct milestones in AI-assisted mathematics research: (a) a research paper (Feng26) generated by AI without any human intervention in calculating certain structure constants in arithmetic geometry called eigenweights; (b) a research paper (LeeSeo26) demonstrating human-AI collaboration in proving bounds on systems of interacting particles called independent sets; and (c) an extensive semi-autonomous evaluation (Feng et al., 2026a) of 700 open problems on Bloom's Erdos Conjectures database, including autonomous solutions to four open questions. In order to help the public better understand the developments pertaining to AI and mathematics, we suggest quantifying standard levels of autonomy and novelty of AI-assisted results, as well as propose a novel concept of human-AI interaction cards for transparency. We conclude with reflections on human-AI collaboration in mathematics and share all prompts as well as model outputs at https://github.com/google-deepmind/superhuman/tree/main/aletheia.
研究の動機と目的
- 競技レベルの問題解決と専門的な数学研究のギャップを埋める。
- Gemini Deep Think上にエンドツーエンドの数学研究エージェント(Generator-Verifier-Reviser)を開発する。
- 推論時スケーリングとツール活用を活かして博士レベルの数学に取り組む。
- AI支援のマイルストーンを示す:自律的なAI論文、人間-AI協働、Erdős問題の評価。
- AI生成数学における自律性と新規性を定量化する指標と分類法を提案する。
提案手法
- Gemini Deep Thinkの上に三つのサブエージェント(Generator、Verifier、Reviser)を備えたAletheiaを構築する。
- 形式言語ではなく自然言語でエンドツーエンドに運用する。
- オリンピック級および博士レベル問題に対する推論時スケーリング法を実験する。
- 広範なツール活用(Google検索、ウェブ閲覧)を用いて文献と引用を探索する。
- 専門家による出力の評価を取り入れ、 autonomie/noveltyの分類法を開発する。
- 透明性のためにプロンプトとモデル出力を文書化する。
実験結果
リサーチクエスチョン
- RQ1AIは研究レベルの新しい定理を自律的に発見・証明できるか。
- RQ2推論時スケーリングとツール活用はオリンピック級の推論を博士レベルの数学へどこまで拡張できるか。
- RQ3AI生成の数学的成果の信頼性・新規性・透明性はどうか。
- RQ4数学研究における自律性レベルと人間-AIの相互作用をどう定量化するか。
主な発見
- AletheiaはIMO-ProofBench Advancedで総合95.1%、解けた問題の条件付き正確さは98.3%を達成。
- FutureMath Basic(博士レベル)では、同程度の計算資源でベースラインを上回るが、長い推論課題ではミスや幻覚が多くなる。
- AIが eigenweights (Feng2026) に関する完全にAI作成の論文を生成し、独立集合の境界でAI主導の協働を可能にした(LeeSeo2026)。
- 広範な Erdős問題の研究により、AIは自律的・部分的・文献識別的な結果を生み出せることが示され、評価された200件の候補のうち13件が意味的に正しい解となった。
- ツール活用(ウェブ検索)は引用の幻覚を減少させ、標準的なPythonツールは追加の利益を限定的にしかもたらさなかった。
- AIの貢献と自律性レベルを文脈化する分類法が提案され、AI支援数学の枠組みを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。