[논문 리뷰] Mathematical Capabilities of ChatGPT
본 논문은 GHOSTS와 miniGHOSTS를 도입하여 ChatGPT 버전(2023년 1월)과 GPT-4의 대학원 수준 수학 추론을 벤치마크하고, 대학원 수준의 능력이 제한적이지만 수학적 검색/지식 어시스턴트로서는 강력한 활용을 보임을 시사한다. 또한 포괄적인 평가 프레임워크를 제공하고 모델의 약점, 시간에 따른 개선, 그리고 수학자들을 위한 실용적 통합 인사이트를 논의한다.
We investigate the mathematical capabilities of two iterations of ChatGPT (released 9-January-2023 and 30-January-2023) and of GPT-4 by testing them on publicly available datasets, as well as hand-crafted ones, using a novel methodology. In contrast to formal mathematics, where large databases of formal proofs are available (e.g., the Lean Mathematical Library), current datasets of natural-language mathematics, used to benchmark language models, either cover only elementary mathematics or are very small. We address this by publicly releasing two new datasets: GHOSTS and miniGHOSTS. These are the first natural-language datasets curated by working researchers in mathematics that (1) aim to cover graduate-level mathematics, (2) provide a holistic overview of the mathematical capabilities of language models, and (3) distinguish multiple dimensions of mathematical reasoning. These datasets also test whether ChatGPT and GPT-4 can be helpful assistants to professional mathematicians by emulating use cases that arise in the daily professional activities of mathematicians. We benchmark the models on a range of fine-grained performance metrics. For advanced mathematics, this is the most detailed evaluation effort to date. We find that ChatGPT can be used most successfully as a mathematical assistant for querying facts, acting as a mathematical search engine and knowledge base interface. GPT-4 can additionally be used for undergraduate-level mathematics but fails on graduate-level difficulty. Contrary to many positive reports in the media about GPT-4 and ChatGPT's exam-solving abilities (a potential case of selection bias), their overall mathematical performance is well below the level of a graduate student. Hence, if your goal is to use ChatGPT to pass a graduate-level math exam, you would be better off copying from your average peer!
연구 동기 및 목표
- LLM에서 고급 수학적 추론을 평가하기 위해 GHOSTS와 miniGHOSTS 데이터셋을 도입한다.
- 다양한 대학원 수준의 문제에서 두 가지 ChatGPT 버전(2023년 1월 9일 및 1월 30일)과 GPT-4를 벤치마크한다.
- 전문가용 수학 어시스턴트로서의 ChatGPT의 강점, 실패 모드 및 실용적 활용을 식별한다.
- 모델 반복 간 수학적 진전을 추적하는 프레임워크를 제공하고 향후 개선을 가이드한다.
제안 방법
- 다양한 수학적 기술을 테스트하기 위해 여섯 개의 하위 데이터셋(Grad-Text, Holes-in-Proofs, Olympiad-Problem-Solving, Symbolic-Integration, MATH, Search-Engine-Aspects)을 생성한다.
- 출력을 등급, 오류 코드, 경고 및 신뢰도와 함께 주석 처리하고, 1636건의 전문가 평가를 수동으로 라벨링한다.
- 프롬프트와 모델 출력이 포함된 JSON 형식의 데이터 포인트를 사용해 능력 및 실패 모드를 분석한다.
- miniGHOSTS와 GHOSTS 데이터셋에서 두 ChatGPT 버전(2023-01-09 및 2023-01-30)과 GPT-4를 비교한다.
- 경고 및 오류 코드를 포함하는 철저한 테스트 방법론을 적용해 실패 모드를 분류한다.
- 하위 데이터셋 전반에 걸친 질적·양적 분석을 제공하고, 교차 도메인 성능 및 프롬프트 엔지니어링 효과를 포함한다.
실험 결과
연구 질문
- RQ1다양한 작업에서 ChatGPT 버전과 GPT-4가 대학원 수준의 수학을 얼마나 잘 수행하는가?
- RQ2수학 어시스턴트로서의 ChatGPT의 구체적인 강점과 실패 모드는 무엇인가?
- RQ3ChatGPT가 대학원 수준에서 어려움을 겪는 동안 GPT-4가 학부 수준의 수학 능력을 확장할 수 있는가?
- RQ42023년 1월 출시 간의 기간에 걸쳐 모델 성능은 어떻게 진화하는가?
- RQ5이 모델들이 실무에서 전문 수학자들을 가장 잘 도울 수 있는 방법은 무엇인가?
주요 결과
- ChatGPT 버전은 대학원 수준 과제에서 제한된 성공을 보이며 평균 평점이 약 3.2에 이르고 증명 및 복잡한 기호 계산에서 강한 약점을 보인다.
- GPT-4는 miniGHOSTS에서 더 높은 성능을 달성하고 다수의 만점에 가까운 평가를 받지만 전체 GHOSTS에서는 여전히 대학원 수준의 숙련도에 미치지 못한다.
- GPT-4는 ChatGPT를 크게 능가하지만 많은 과제에서 여전히 대학원생 수준에는 미치지 못한다.
- ChatGPT는 빠른 사실 검색 및 맥락 이해를 위한 수학 검색 엔진이자 지식 기반 인터페이스로서 뛰어나다.
- 프롬프트 엔지니어링은 복잡한 작업에서 한계적 개선만을 가져오고, GPT-4는 더 길고 산만한 답변을 제공하는 경우가 많아 가독성을 돕거나 해칠 수 있다.
- 전반적으로 ChatGPT는 고급 수학 문제의 단독 해결사라기보다 조회 및 정리에 대한 어시스턴트로 더 적합하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.