Skip to main content
QUICK REVIEW

[論文レビュー] Llemma: An Open Language Model For Mathematics

Zhangir Azerbayev, Hailey Schoelkopf|arXiv (Cornell University)|Oct 16, 2023
Mathematics, Computing, and Information Processing被引用数 13
ひとこと要約

Llemma は、Proof-Pile-2 で Code Llama を継続事前学習することにより得られたオープンドメインの数学特化言語モデル(7B および 34B)で、MATH における最先端のオープンベース性能を達成し、ファインチューニングなしでツール利用と形式定理証明を可能にします。

ABSTRACT

We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.

研究の動機と目的

  • 数学へのドメイン適応により特化した前知識と推論を活用するためのLMs の動機づけ。
  • 数学に富むテキスト、コード、証明の混在データを継続的に前学習して数学特化ベースモデルを開発する。
  • 標準的な数学推論ベンチマークとツール支援タスクで Llemma を評価し、オープンベースのベースラインを確立する。
  • モデル、訓練データ、コードをオープンアクセスで提供し、将来の数学的推論研究を促進する。

提案手法

  • Proof-Pile-2 上の Code Llama を継続前学習し Llemma-7B および Llemma-34B を作成する。
  • Proof-Pile-2 を 55B トークンの数学論文、ウェブ数学データ、AlgebraicStack データセットを含む数学データの混合として assembled する。
  • 7B を 200B トークン、34B を 50B トークンで、256 A100 GPU 上でテンソル並列性と ZeRO 最適化を用い浮動小数点の bfloat16 で訓練する。
  • 標準の自己回帰 LM 目的と効率のための Flash Attention 2 を用いた混合精度訓練を採用する。
  • MATH、GSM8k、OCWCourses、MMLU-STEM、SAT で few-shot chain-of-thought prompting による評価を行い、ツール利用と形式的数学能力を評価する。
  • 7B および 34B のモデルと Proof-Pile-2 コーパス、コード、および AlgebraicStack データセットの公開リリース。

実験結果

リサーチクエスチョン

  • RQ1継続的前学習による数学に焦点を当てたデータ混合が、オープンベースの言語モデルの数学的推論を改善できるか?
  • RQ2コードデータおよび形式的数学データの含有が、オープン数学モデルの性能と記憶にどのような影響を与えるか?
  • RQ3タスク固有のファインチューニングなしで、オープンベースのモデルがツール支援数学を実行し、形式的証明システムと対話できる程度はどの程度か?
  • RQ4データ混合(arXiv、ウェブ、コード)が数学的ベンチマークと問題解決の性能にどう影響するか?
  • RQ5オープン数学モデルの記憶リスクとデータ重複の影響は何か?

主な発見

  • Llemma-34B は GSM8k で Code Llama を 20 ポイント、MATH で 13 ポイント上回る。
  • Llemma-7B は ベンチマークで報告された民間の Minerva モデルを上回る。
  • Llemma は追加のファインチューニングなしで計算ツール(Python インタプリタと形式証明器)を使用する能力を示す。
  • Llemma は MATH ベンチマークでオープンウェイトモデルの最先端結果を達成する。
  • オープンアクセスリリースには 7B と 34B のベースモデル、Proof-Pile-2、AlgebraicStack、および再現コードが含まれる。
  • Proof-Pile-2 での継続的前学習は、複数のベンチマークで少数ショットの数学的問題解決を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。