Skip to main content
QUICK REVIEW

[論文レビュー] DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

DeepSeek-AI, Qihao Zhu|arXiv (Cornell University)|Jun 17, 2024
vaccines and immunoinformatics approaches被引用数 48
ひとこと要約

DeepSeek-Coder-V2 はオープンソースの Mixture-of-Experts コードモデル(16B および 236B)で、コードと数学タスクの性能で閉源モデルに近づくか上回り、338言語へ言語サポートを拡張し、コンテキスト長を128Kトークンへ増やします。

ABSTRACT

We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek-Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in various aspects of code-related tasks, as well as reasoning and general capabilities. Additionally, DeepSeek-Coder-V2 expands its support for programming languages from 86 to 338, while extending the context length from 16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.

研究の動機と目的

  • オープンソースのコードモデルと閉源リーダー(例:GPT-4-Turbo)とのギャップを、コーディングと数学タスクの領域で埋める。
  • 多様なプログラミング言語と長距離コード理解をサポートするために言語とコンテキストのカバレッジを拡大する。
  • 長期コンテキスト訓練と多源的事前学習、RLベースのアラインメントを通じてコーディングと数学的推論を向上させる。
  • 研究と商用利用の制限を緩和したオープンソースモデルを許容ライセンスの下で公開する。

提案手法

  • DeepSeek-V2 の中間チェックポイントから追加の6兆トークンを用いた継続的事前学習、コード・数学・自然言語領域を合わせて総計10.2兆トークン訓練。
  • コードコーパスを86言語から338言語へ拡張し、コードトークンを1,170Bに増加、混合比は60%コード・10%数学・30%自然言語。
  • Yarnフレームワークを用いて16Kから128Kトークンへ拡張した長期コンテキスト訓練を段階的に実施。
  • 2段階のアラインメント:コード・数学・一般データを組み合わせた命令データセットでの教師ありファインチューニング、その後、報酬モデルをコンパイラ/テストケースのフィードバックで調整したグループ相対政策最適化(GRPO)を用いた強化学習。
  • 16B ではコード補完を強化するために Fill-In-Middle(FIM)訓練(Prefix-Suffix-Middle 構造)を採用; 236B では Next-Token-Prediction 目的に依拠。
  • コーディング・数学・NLタスク全般でオープン-およびクローズドソースのベースラインと比較して性能向上を検証。
Figure 1: The Performance of DeepSeek-Coder-V2 on math and code benchmarks.
Figure 1: The Performance of DeepSeek-Coder-V2 on math and code benchmarks.

実験結果

リサーチクエスチョン

  • RQ1オープンソースの Mixture-of-Experts コードモデルは、コーディングと数学のベンチマークで閉源リーダーと同等、あるいはそれを上回ることができるか。
  • RQ2プログラミング言語カバレッジとコンテキスト長の拡大は、コーディングの正確さと推論能力にどのように影響するか。
  • RQ3データ構成・長期コンテキスト訓練・RLアラインメント戦略がオープンソースのコードモデルの性能に与える影響は何か。
  • RQ4オープンソースモデルがコードと数学タスクに特化しつつ、一般言語機能をどの程度維持できるか。

主な発見

  • DeepSeek-Coder-V2(236B)は、コードと数学のベンチマークでGPT-4-Turbo、Claude 3 Opus、Gemini 1.5 Proと同等以上の性能を達成。
  • コードベンチマークでは236Bモデル(EvalPlusパイプライン)で HumanEval 90.2%、MBPP 76.2%、LiveCodeBench 43.4% を示す。
  • 数学タスクでは DeepSeek-Coder-V2 が MATH で 75.7% に達し、GPT-4o にほぼ匹敵し、AIME 2024 などの閉源モデルを上回る。
  • 本モデルは338言語をサポートし、前作の86言語・16Kコンテキストから最大128Kトークンへ拡張。
  • オープンソースの DeepSeek-Coder-V2-Instruct は、言語を組み合わせた HumanEval/MBPP の平均75.3%を達成し、 benchmark セットで GPT-4o に次ぐ位置。
  • 長期コンテキストとFIM対応の変種(16B)は、コード補完と修復能力が高く、FIMタスクと修復ベンチマークで顕著な結果を示す。
Figure 2: Evaluation results on the “Needle In A Haystack” (NIAH) tests. DeepSeek-Coder-V2 performs well across all context window lengths up to 128K.
Figure 2: Evaluation results on the “Needle In A Haystack” (NIAH) tests. DeepSeek-Coder-V2 performs well across all context window lengths up to 128K.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。