QUICK REVIEW

[論文レビュー] Gemma: Open Models Based on Gemini Research and Technology

Gemma Team, Thomas Mesnard|arXiv (Cornell University)|Mar 13, 2024

Multi-Agent Systems and Negotiation被引用数 220

ひとこと要約

Gemmaは、Gemini技術をベースにした2つのオープンLLM（2Bと7B）を提供します。事前学習済みおよびファインチューニング済みのチェックポイントを備え、言語・推論・安全性の広範なベンチマークで評価され、オープン推論コードと安全ツールを用いて公開されました。

ABSTRACT

This work introduces Gemma, a family of lightweight, state-of-the art open models built from the research and technology used to create Gemini models. Gemma models demonstrate strong performance across academic benchmarks for language understanding, reasoning, and safety. We release two sizes of models (2 billion and 7 billion parameters), and provide both pretrained and fine-tuned checkpoints. Gemma outperforms similarly sized open models on 11 out of 18 text-based tasks, and we present comprehensive evaluations of safety and responsibility aspects of the models, alongside a detailed description of model development. We believe the responsible release of LLMs is critical for improving the safety of frontier models, and for enabling the next wave of LLM innovations.

研究の動機と目的

Gemini研究から派生したオープンで高品質な言語モデルを研究開発のため提供する。
言語理解、推論、コーディング、安全性ベンチマークでのパフォーマンスを評価する。
安全性、 memorization（記憶）および責任あるデプロイメントの側面を評価し、オープンモデルの実践を通知する。
広範な研究と実験を可能にする事前学習済みおよび指示調整済みのチェックポイントを提供する。
サポーティングツールとドキュメントを備えた責任あるオープンウェイト公開を促進する。

提案手法

コンテキスト長8192トークンのTransformerデコーダーアーキテクチャ。
2つのモデルスケール：2B（2048次元、18層）と7B（3072次元、28層）。
改善点：マルチクエリアテンションまたはマルチヘッドアテンション、Rotary Position Embeddings（RoPE）、GeGLU活性化、RMSNorm。
Pathways風のシャーディングと2Dトーラスハードウェアを用いたTPUv5eで最大6Tトークンのトレーニング；単一コントローラGPTスタイルのオーケストレーション（Jax、Pathways、GSPMD）。
unsafeまたは低品質なコンテンツを減らすデータフィルタリングと評価セットの漏洩回避；語彙サイズ256k；2Bは2Tトークン、7Bは6Tトークンで学習。
2段階のファインチューニング：Supervised Fine-Tuning（SFT）に続く人間のフィードバックからの強化学習（RLHF）；対話制御用の指示フォーマットトークン。

Figure 1: Language understanding and generation performance of Gemma 7B across different capabilities compared to similarly sized open models. We group together standard academic benchmark evaluations by capability and average the respective scores; see Table 6 for a detailed breakdown of performanc

実験結果

リサーチクエスチョン

RQ1Gemmaモデルは、同程度のオープンモデルと自動評価および人間評価ベンチマークでどのような相対的パフォーマンスを示すか？
RQ2Gemmaモデルの安全性と memorization のプロファイル、機微情報の露出や memorization のリスクを含めて？
RQ3指示調整レジーム（SFT、RLHF）が下流のパフォーマンスと安全性に与える影響は？
RQ4オープンウェイトが研究、安全性研究、下流のイノベーションにどのように寄与するか？
RQ5責任あるオープンモデル公開のためのデプロイとガバナンスの仕組みはどれが有効か？

主な発見

Gemma 7Bは、同様のオープンモデルと比較して強力なパフォーマンスを発揮し、MMLUベンチマークで複数を上回り（64.3%）、MBPPで（44.4%）を達成している。
人間評価でMistral v0.2 7B Instructに対して、Gemma-7B ITは指示追従プロンプトで51.7%のポジティブ勝率、セーフティプロンプトで58%の勝率を示す（信頼区間付き）。
Gemmaモデルは数学とコーディング能力が高く、GSM8K、MATH、MBPPで多くのオープン競合を上回る。
事前学習の memorization は低く、PaLMファミリーと同程度で、機微データの memorizedは検出されず；推定 memorization は高いが予想範囲内。
公開リリースには事前学習済みとファインチューニング済みのチェックポイントの両方と、研究と安全分析を促進するオープンソースの推論/提供コードベースが含まれる。
Gemmaは安全性ベンチマーク、レッドチーミング、モデルカード、開発者向けGenerative AI Responsible Toolkitを用いた責任あるデプロイを強調する。

Figure 2: Comparing average memorization rates across model families. We compare the Gemma pretrained models to PaLM and PaLM 2 models of comparable size and find similarly low rates of memorization.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。