QUICK REVIEW

[논문 리뷰] Llemma: An Open Language Model For Mathematics

Zhangir Azerbayev, Hailey Schoelkopf|arXiv (Cornell University)|2023. 10. 16.

Mathematics, Computing, and Information Processing인용 수 13

한 줄 요약

Llemma은 Proof-Pile-2에서 Code Llama를 지속적으로 사전 학습시켜 얻은 오픈 도메인 수학 특화 언어 모델(7B 및 34B)이며, MATH에서 오픈 베이스 최첨단 성능을 달성하고 도구 사용 및 추가 미세 조정 없이 형식 정리 증명을 가능하게 한다.

ABSTRACT

We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.

연구 동기 및 목표

수학에 대한 전문 지식과 추론 능력을 활용하기 위해 LM의 수학 도메인 적응을 촉진한다.
텍스트, 코드 및 증명의 수학이 풍부한 혼합 데이터에 대한 지속적 사전 학습을 통해 수학 특화 기본 모델을 개발한다.
표준 수학 추론 벤치마크와 도구 보조 작업에서 Llemma를 평가하여 오픈-베이스 기준선을 확립한다.
수학적 추론의 향후 연구를 촉진하기 위해 모델, 학습 데이터 및 코드의 개방 접근을 제공한다.

제안 방법

Proof-Pile-2에서 Code Llama를 지속적으로 사전 학습시켜 Llemma-7B 및 Llemma-34B를 생성한다.
Proof-Pile-2를 수학 논문, 웹 수학 데이터, 수학 코드(AlgebraicStack 데이터세트 포함)로 구성된 55B-token 혼합으로 구성한다.
7B를 200B 토큰으로, 34B를 50B 토큰으로 학습하며 bfloat16을 사용하고 256 A100 GPU에서 텐서 병렬과 ZeRO 최적화를 적용한다.
표준 자기회귀 LM 목적을 사용하고 효율성을 위해 Flash Attention 2를 사용한 혼합 정밀도 학습을 적용한다.
MATH, GSM8k, OCWCourses, MMLU-STEM 및 SAT에서 Few-shot chain-of-thought 프롬프트로 평가하고 도구 사용 및 형식 수학 능력을 평가한다.
7B 및 34B 모델과 Proof-Pile-2 말뭉치, 코드, AlgebraicStack 데이터세트를 공개적으로 릴리스한다.

실험 결과

연구 질문

RQ1수학 중심 데이터 혼합에 대한 지속적 사전 학습이 수학적 추론을 위한 오픈-베이스 언어 모델을 개선할 수 있는가?
RQ2코드 데이터와 형식 수학 데이터의 포함이 오픈 수학 모델의 성능 및 암기(memory)에도 미치는 영향은 무엇인가?
RQ3작업 특정 미세 조정 없이 오픈-베이스 모델이 도구 보조 수학을 수행하고 형식 증명 시스템과 상호 작용할 수 있는 정도는?
RQ4데이터 혼합(arXiv, 웹, 코드)이 수학 벤치마크 및 문제 해결에서 성능에 어떤 영향을 미치는가?
RQ5오픈 수학 모델에 대한 암기 리스크와 데이터 중복(겹침) 시사점은 무엇인가?

주요 결과

Llemma-34B는 GSM8k에서 Code Llama보다 20% 포인트, MATH에서 13% 포인트 더 우수하다.
Llemma-7B는 보고된 벤치마크에서 독점형 Minerva 모델을 능가한다.
Llemma는 추가 미세 조정 없이 계산 도구(Python 인터프리터 및 형식 정리 증명기)를 사용할 수 있는 능력을 보인다.
Llemma는 MATH 벤치마크에서 오픈 가중치 모델의 최첨단 결과를 달성한다.
오픈 액세스 릴리스에는 7B 및 34B 기본 모델, Proof-Pile-2, AlgebraicStack 및 재현 코드가 포함된다.
Proof-Pile-2에 대한 지속적 사전 학습은 여러 벤치마크에서 Few-shot 수학 문제 해결을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.