Skip to main content
QUICK REVIEW

[論文レビュー] CodeGemma: Open Code Models Based on Gemma

CodeGemma Team, Zhao, Heri|arXiv (Cornell University)|Jun 17, 2024
Model-Driven Software Engineering Techniques被引用数 18
ひとこと要約

CodeGemmaはGemmaを基盤としたオープンコードモデルを導入し、高速な2Bインフィリングモデルとコード能力と推論能力が高い7Bの事前学習済み/指示調整済みバリアントを特徴とします。

ABSTRACT

This paper introduces CodeGemma, a collection of specialized open code models built on top of Gemma, capable of a variety of code and natural language generation tasks. We release three model variants. CodeGemma 7B pretrained (PT) and instruction-tuned (IT) variants have remarkably resilient natural language understanding, excel in mathematical reasoning, and match code capabilities of other open models. CodeGemma 2B is a state-of-the-art code completion model designed for fast code infilling and open-ended generation in latency-sensitive settings.

研究の動機と目的

  • Google DeepMindのGemmaモデルを基盤として、オープンコードモデリングを前進させる。
  • コード中心の大規模コーパスを対象に、対象を絞った前処理とデータ選定を行って訓練する。
  • インフィリング、コード生成、自然言語理解をさまざまなタスクで評価する。
  • レイテンシーが重要な環境やホスティング環境に向けた実用的なデプロイメント指針を提供する。

提案手法

  • Gemmaの事前学習済みモデルを、コード、英語テキスト、数学に焦点を当てた500–1000Bトークンのコーパスで拡張する。
  • ほとんどのモデルで80%のFIM率(2B v1.1は90%)を用いてMiddle-fill(FIM)目的で事前訓練する。
  • 専用のフォーマットトークンを用いてPSM(Prefix-Suffix-Middle)とSPM(Suffix-Prefix-Middle)の両方のモードをサポートする。
  • 推論とコーディング性能を向上させるため、合成コードデータと数学データセットを用いた指示チューニングを実施する。
  • 依存グラフとユニットテストベースのパッキングによるマルチファイルリポジトリコンテキストを実装し、実世界のコーディング作業をより反映する。
  • コード補完タスクに合わせた推論推奨とプロンプトを提供する。

実験結果

リサーチクエスチョン

  • RQ1Gemma上に構築されたオープンモデルや他のCode LLMと比べて、CodeGemmaモデルはコード補完や生成タスクでどのように性能を発揮するか?
  • RQ2FIM訓練とマルチファイルリポジトリコンテキストがコードの理解と生成品質に与える影響は何か?
  • RQ32Bと7Bのバリアントは、言語間でのコーディングと数学的推論タスクにおいて、待機時間と精度をどのように比較するか?

主な発見

  • CodeGemma 2Bは強力な性能を持つ高速なコードインフィリングを提供し、IDEなどのレイテンシに敏感な環境に適しています。
  • CodeGemma 7B pretrainedおよび7B instruction-tunedバリアントは、強力なコード生成と自然言語理解を示し、顕著な数学的推論能力を備えています。
  • Pythonコーディングのベンチマークでは、CodeGemmaのバリアントはベースのGemmaモデルを上回り、GSM8KおよびMATH推論データセットで顕著な向上を示す。
  • BabelCodeの多言語ベンチマークでは、CodeGemmaが複数言語で競争力のある、または優れた結果を示す。
  • 2Bモデルの推論スピードの利点は、インフィリングタスクの品質低下を大きく伴わず実現され、制約された環境でのデプロイに魅力的である。
  • モデルはコード能力と自然言語能力の維持のバランスを取り、より広い実世界の応用を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。