Skip to main content
QUICK REVIEW

[论文解读] Gemma 2: Improving Open Language Models at a Practical Size

Gemma Team, Morgane Rivière|arXiv (Cornell University)|Jul 31, 2024
Natural Language Processing Techniques被引用 128
一句话总结

Gemma 2 引入 2B、9B 和 27B 开放模型,采用知识蒸馏和 Transformer 修改进行训练,在其规模内达到前沿性能,并与更大模型相比具有竞争力。

ABSTRACT

In this work, we introduce Gemma 2, a new addition to the Gemma family of lightweight, state-of-the-art open models, ranging in scale from 2 billion to 27 billion parameters. In this new version, we apply several known technical modifications to the Transformer architecture, such as interleaving local-global attentions (Beltagy et al., 2020a) and group-query attention (Ainslie et al., 2023). We also train the 2B and 9B models with knowledge distillation (Hinton et al., 2015) instead of next token prediction. The resulting models deliver the best performance for their size, and even offer competitive alternatives to models that are 2-3 times bigger. We release all our models to the community.

研究动机与目标

  • 在不单纯延长训练时间的前提下,提升小到中等规模的开放语言模型性能。
  • 评估知识蒸馏以及结构修改(局部-全局注意力、GQA)在 Gemma 2 中的有效性。
  • 评估面向实用应用的大语言模型的预训练与后训练策略、安全性与部署考虑。
  • 将 Gemma 2 模型与更大规模的开放模型以及基线模型在自动评估和人工评估中的表现进行比较。

提出的方法

  • 采用解码器为主的 Transformer 架构,交错的局部滑动窗口与全局注意力层(局部为 4096,全局为 8192)。
  • 应用 Grouped-Query Attention (GQA),num_groups=2 以提升推理速度。
  • 使用 RMSNorm 以提高稳定性,GeGLU 非线性激活以提升效率。
  • 使用来自大型教师模型的知识蒸馏训练 2B/9B 模型;27B 从零开始训练。
  • 以 13T 令牌(27B)、8T(9B)和 2T(2B)进行预训练,使用 256k SentencePiece 词表;对数据进行筛选以减少不安全输出。
  • 通过有监督微调(SFT)和来自人类反馈的强化学习(RLHF)进行后训练;从多个超参数的模型中求平均,形成最终的 IT 模型。
  • 在标准基准测试之外,评估安全性、记忆化以及多轮对话能力。
Figure 1: Comparing memorization rates. We find significantly lower memorization rates across-the-board. (Left) Overall memorization across model families. (Right) Exact and approximate memorization per data source.
Figure 1: Comparing memorization rates. We find significantly lower memorization rates across-the-board. (Left) Overall memorization across model families. (Right) Exact and approximate memorization per data source.

实验结果

研究问题

  • RQ1当在非常大的 token 数量上训练时,知识蒸馏是否会提升小到中等规模的开放式 LLM 的性能?
  • RQ2在实际规模下,架构微调(局部-全局交错、GQA)对效率和下游性能有何影响?
  • RQ3在自动基准测试和人工评估中,Gemma 2 模型与更大规模的开放模型相比如何,包括安全性与对齐度的衡量?
  • RQ4公开 Gemma 2 模型的安全性、记忆性和部署影响是什么?
  • RQ5后训练(SFT/RLHF)和模型合并在实际中如何影响指令遵循性与用户满意度?

主要发现

  • 来自更大模型的蒸馏显著提升小模型性能;例如,2B 和 9B 模型相比在相同标记数量训练的先前版本有较大提升,在某些基准上,9B 模型的改进约可达到 10% 左右。
  • 27B Gemma 2 的表现与体积超过其两倍以上的模型具有竞争力,在某些评估中甚至与 LLaMA-3 70B 相当,尽管其训练数据较少。
  • 在后训练中,Gemma 2 IT 模型在人工评估中优于许多开放模型,在 LMSYS 聊天机器人竞技场获得高 Elo 分,超越了多种更大规模的封闭和开放对手(如 Gemma 27B Elo 1218 对 LLaMA-3 70B Elo 1206)。
  • 记忆化率明显低于同等规模的先前开放模型,逐字记忆 <0.1%,且跨数据源的近似记忆率也很低。
  • Gemma 2 在对外和对内评估中显示出改进的安全性指标,IT 模型在人工评估中表现出更强的指令遵循性和安全性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。