QUICK REVIEW

[論文レビュー] Gemma 2: Improving Open Language Models at a Practical Size

Gemma Team, Morgane Rivière|arXiv (Cornell University)|Jul 31, 2024

Natural Language Processing Techniques被引用数 128

ひとこと要約

Gemma 2 は、知識蒸留とトランスフォーマーの改良を用いて訓練された 2B、9B、27B のオープンモデルを導入し、それぞれの規模で最先端の性能を達成し、より大きなモデルと比べても競争力のある結果を示します。

ABSTRACT

In this work, we introduce Gemma 2, a new addition to the Gemma family of lightweight, state-of-the-art open models, ranging in scale from 2 billion to 27 billion parameters. In this new version, we apply several known technical modifications to the Transformer architecture, such as interleaving local-global attentions (Beltagy et al., 2020a) and group-query attention (Ainslie et al., 2023). We also train the 2B and 9B models with knowledge distillation (Hinton et al., 2015) instead of next token prediction. The resulting models deliver the best performance for their size, and even offer competitive alternatives to models that are 2-3 times bigger. We release all our models to the community.

研究の動機と目的

トレーニング時間を単純に延ばすことだけに頼らず、小〜中規模のオープン言語モデルの性能を向上させる。
Gemma 2 における知識蒸留とアーキテクチャの改良（局所-全体の注意、GQA）の有効性を評価する。
実用用途を想定した LLM の事前訓練と事後訓練戦略、安全性、デプロイメントの考慮事項を評価する。
Gemma 2 のモデルを、より大規模なオープンモデルやベースラインと自動評価および人間評価の両方で比較する。

提案手法

デコーダーのみを用いる Transformer アーキテクチャを採用し、局所スライディングウィンドウとグローバル注意層を交互に配置（局所 4096、グローバル 8192）。
推論速度を改善するため、num_groups=2 の Grouped-Query Attention (GQA) を適用。
安定性のために RMSNorm を、効率のために GeGLU 非線形性を用いる。
大規模な教師モデルからの知識蒸留を用いて 2B/9B モデルを訓練し、27B はゼロから訓練。
27B は最大 13T トークン、9B は 8T、2B は 2T までの事前訓練を、256k SentencePiece 辞書を用いて実施; 出力の不安全性を減らすようデータをフィルタリング。
監視付きファインチューニング（SFT）と人間のフィードバックに基づく強化学習（RLHF）を通じて事後訓練を行い、複数のハイパーパラメータからモデルを平均化して最終 IT モデルを構成。
標準ベンチマークと併せて、安全性、記憶化、複数ターンの対話能力を評価する。

Figure 1: Comparing memorization rates. We find significantly lower memorization rates across-the-board. (Left) Overall memorization across model families. (Right) Exact and approximate memorization per data source.

実験結果

リサーチクエスチョン

RQ1非常に大規模なトークン数で訓練した場合、知識蒸留は小〜中規模のオープン LLM の性能を向上させるか？
RQ2実用サイズでの効率と下流性能に対する局所-全体の交互配置や GQA などのアーキテクチャの調整の影響は何か？
RQ3Gemma 2 のモデルは、より大きなオープンモデルと自動ベンチマークおよび人間評価の両方でどう比較されるか？
RQ4オープンな Gemma 2 モデルを公開する際の安全性、記憶化、デプロイメントの影響は何か？
RQ5事後訓練（SFT/RLHF）とモデルマージが実際の指示遵守とユーザー満足度に与える影響はどうか？

主な発見

より大きなモデルからの蒸留は小規模モデルの性能を大幅に向上させる。たとえば、2B および 9B モデルは、同じトークン数で訓練した以前のバージョンに対して大きな改善を示し、9B モデルではいくつかのベンチマークで約 10% 程度の改善を達成。
27B Gemma 2 は、サイズが2倍以上のモデルと比べて競争力のある性能を達成し、データ量が少なくても一部の評価で LLaMA-3 70B と競争力がある。
事後訓練では、Gemma 2 IT モデルが人間評価で多くのオープンモデルを上回り、LMSYS Chatbot Arena で高い Elo スコアを達成し、より大規模な競合他モデルを上回る（例：Gemma 27B Elo 1218 対 LLaMA-3 70B Elo 1206）。
同等サイズの従来のオープンモデルと比べて記憶化率が著しく低く、逐語的 memorization は <0.1%、データソース間での近似 memorization も低い。
Gemma 2 は外部・内部評価の安全性指標が改善され、IT モデルは人間の評価において指示遵守と安全性のパフォーマンスがより高いことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。