QUICK REVIEW

[論文レビュー] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

DeepSeek-AI, Liu, Aixin|arXiv (Cornell University)|May 7, 2024

Expert finding and Q&A systems被引用数 97

ひとこと要約

DeepSeek-V2 は 236B パラメータのオープンソース MoE 言語モデルで、1トークンあたり 21B が活性化し、128K コンテキスト、経済的な訓練と効率的な推論を可能にする新規 MLA および DeepSeekMoE アーキテクチャを備え、オープンソース性能のトップクラスを達成します。

ABSTRACT

We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference. It comprises 236B total parameters, of which 21B are activated for each token, and supports a context length of 128K tokens. DeepSeek-V2 adopts innovative architectures including Multi-head Latent Attention (MLA) and DeepSeekMoE. MLA guarantees efficient inference through significantly compressing the Key-Value (KV) cache into a latent vector, while DeepSeekMoE enables training strong models at an economical cost through sparse computation. Compared with DeepSeek 67B, DeepSeek-V2 achieves significantly stronger performance, and meanwhile saves 42.5% of training costs, reduces the KV cache by 93.3%, and boosts the maximum generation throughput to 5.76 times. We pretrain DeepSeek-V2 on a high-quality and multi-source corpus consisting of 8.1T tokens, and further perform Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL) to fully unlock its potential. Evaluation results show that, even with only 21B activated parameters, DeepSeek-V2 and its chat versions still achieve top-tier performance among open-source models.

研究の動機と目的

大規模言語モデルのリソースと効率性の課題に対処するため、経済的な訓練と高速推論を実現する。
KV キャッシュを削減し、スケーラブルな MoE 訓練を可能にするアーキテクチャを開発する。
英語および中国語のベンチマークで強力な性能を達成しつつ、訓練コストを削減し推論スループットを向上させる。

提案手法

推論時の KV キャッシュを削減するため、低ランクのキー・バリュー結合圧縮を用いたMulti-head Latent Attention (MLA) を導入する。
FFN に DeepSeekMoE を採用し、疎ルーティングと細粒度のエキスパートによって経済的なコストで強力なモデル訓練を可能にする。
RoPE 互換性を MLA に維持するために切り離し可能な Rotary Position Embedding を採用する。
MoE における通信と計算を制御するため、デバイス制約付きルーティング、補助的な負荷分散損失、およびトークンドロップ戦略を実装する。
8.1T の多源コーパスで事前訓練を行い、その後、監視付き微調整（SFT）と Group Relative Policy Optimization（GRPO）を用いた強化学習（RL）を実施してモデルを整合させる。
YaRN を用いて長い文脈を拡張し、コンテキスト長を 128K に拡張する。

実験結果

リサーチクエスチョン

RQ1MLA を標準的な MHA、GQA、MQA と比較した場合の性能と KV キャッシュ効率はどうか。
RQ2DeepSeekMoE は dense 相当または他の MoE アーキテクチャと比較して、低コストで強力なモデル性能を実現できるか。
RQ3同様の活性化パラメータ数を持つオープンソースのベンチマークと比較して、DeepSeek-V2 は英語および中国語のベンチマークでどの程度の性能を発揮するか。
RQ4SFT および RL アライメントが DeepSeek-V2 Chat の英語・中国語タスクの性能にどのような影響を与えるか。

主な発見

DeepSeek-V2 は 21B 活性化パラメータのみでオープンソースモデルのトップクラスの性能を達成する。
DeepSeek 67B と比較して、訓練コストを 42.5% 節約し、KV キャッシュを 93.3% 減少させ、最大生成スループットを 5.76 倍向上させる。
モデル全体で 236B の総パラメータを持ち、1 トークンあたり 21B 活性化し、128K コンテキスト長をサポートする。
DeepSeek-V2 Chat（RL）は AlpacaEval 2.0（38.9 の長さ制御勝率）、MT-Bench（8.97）、AlignBench（7.91）で強力なスコアを達成する。
中国語ベンチマークでは、DeepSeek-V2 Chat（RL）は AlignBench でオープンソースモデルおよび多くのクローズドソースモデルを上回る。
DeepSeek-V2-Lite（総計 15.7B、活性化 2.4B）はコミュニティ向けに公開される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。