QUICK REVIEW

[논문 리뷰] Semi-Autonomous Mathematics Discovery with Gemini: A Case Study on the Erdős Problems

Tony Feng, Trieu Trinh|arXiv (Cornell University)|2026. 01. 29.

Mathematics, Computing, and Information Processing인용 수 2

한 줄 요약

본 논문은 Gemini Deep Think 위에 AI 기반 수학 연구 에이전트(Aletheia)를 적용하여 700개의 Erdős-개방 문제에 대한 사례 연구를 보고하며, 자율적, 부분적, 문헌에서 확인된 결과의 혼합을 보이고, 신중한 인간 검증과 함정에 대한 논의를 포함한다.

ABSTRACT

We present a case study in semi-autonomous mathematics discovery, using Gemini to systematically evaluate 700 conjectures labeled 'Open' in Bloom's Erdős Problems database. We employ a hybrid methodology: AI-driven natural language verification to narrow the search space, followed by human expert evaluation to gauge correctness and novelty. We address 13 problems that were marked 'Open' in the database: 5 through seemingly novel autonomous solutions, and 8 through identification of previous solutions in the existing literature. Our findings suggest that the 'Open' status of the problems was through obscurity rather than difficulty. We also identify and discuss issues arising in applying AI to math conjectures at scale, highlighting the difficulty of literature identification and the risk of ''subconscious plagiarism'' by AI. We reflect on the takeaways from AI-assisted efforts on the Erdős Problems.

연구 동기 및 목표

Bloom의 Erdős Problems 데이터베이스에서 규모에 맞춘 반자율적 수학 발견을 시연한다.
인간 평가를 통해 AI 생성 해법의 정확성, 새로움, 출처를 평가한다.
AI 지원 수학 연구의 한계, 위험성, 모범 사례를 식별한다.

제안 방법

Aletheia( Gemini Deep Think에 구축된 수학 연구 에이전트)를 사용하여 Open 문제에 대한 후보 해를 생성한다.
자연어 검증기를 적용하여 700개의 프롬프트에서 212 후보로 잠재적으로 정답인 응답을 필터링한다.
전문가가 정답성과 새로움을 평가하고 필요 시 외부 자문을 받는다.
자율 해답, 부분 AI 해답, 독립적 재발견, 문헌 식별으로 결과를 분류한다.
대규모 수학 conjecture에 AI를 적용할 때의 잠재적 표절 및 문헌 식별의 어려움을 사례로 문서화하고 반성한다.

실험 결과

연구 질문

RQ1AI 기반 자연어 검증이 대규모 오픈 문제 공간을 전문가 검토에 적합한 매력적인 집합으로 신뢰성 있게 축소할 수 있는가?
RQ2AI 생성 후보 중 얼마나 많은 부분이 정확하고 새로우며 기존 문헌의 재진술에 불과한가?
RQ3대규모 AI 지원 수학 발견에서의 주요 장애물(명제 해석, 문헌 검색, 표절 위험)은 무엇인가?
RQ4 Erdős 문제에 대한 자율 AI 해법이 의미 있는 수학적 새로움을 달성하는가, 아니면 낮은 수준의 통찰에 머무르는가?
RQ5이 문제들에 대한 AI 지원 작업이 Lean과 같은 형식 검증 접근법과 비교하여 어떤 차이가 있는가?

주요 결과

AI가 생성한 응답 200개 중 판단된 것에서 의미 있게 정확하고 새로움이 있는 경우는 0–2개이고, 전반적으로 의미 있게 정확한 해법은 13개였다.
자율 해법은 다섯 문제(Erdős-652, Erdős-654, Erdős-935, Erdős-1040, Erdős-1051)를 포함한다.
추가로 8개 문제는 부분 AI 해법 또는 다부분 문제의 일부에 대해서만 AI 지원 발견이 필요했다.
문헌 재발견은 세 문제(Erdős-397, Erdős-659, Erdős-1089)에서 발생했으며, 해당 문헌에 이미 올바른 해법이 존재했다.
문헌 식별은 다섯 문제(Erdős-333, Erdős-591, Erdős-705, Erdős-992, Erdős-1105)에 대해 이미 문헌에 해법이 존재함을 확인했다.
본 연구는 잠재적 표절 위험과 대규모 수학 추측에 AI를 적용할 때의 문헌 식별의 어려움 같은 리스크를 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.