QUICK REVIEW

[論文レビュー] Qwen2.5-Coder Technical Report

Binyuan Hui, Jian Yang|arXiv (Cornell University)|Sep 18, 2024

Advanced MEMS and NEMS Technologies被引用数 31

ひとこと要約

Qwen2.5-Coder 系列（1.5B および 7B）は、Qwen2.5 を基盤とするコード重視の LLM で、5.5T トークンで事前学習され、コーディング向けに調整され、10+ のベンチマークで高い性能と寛容なライセンスを特徴とします。

ABSTRACT

In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes six models: Qwen2.5-Coder-(0.5B/1.5B/3B/7B/14B/32B). As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.5-Coder demonstrates impressive code generation capabilities while retaining general and math skills. These models have been evaluated on a wide range of code-related tasks, achieving state-of-the-art (SOTA) performance across more than 10 benchmarks, including code generation, completion, reasoning, and repair, consistently outperforming larger models of the same model size. We believe that the release of the Qwen2.5-Coder series will advance research in code intelligence and, with its permissive licensing, support wider adoption by developers in real-world applications.

研究の動機と目的

高性能なオープンソースのコードLLMファミリで、コード知能を前進させる。
厳選されたデータ混合を通じて、コーディングの専門性と一般的な言語理解のバランスを取る。
長い文脈のコード処理と実用的なコーディングエージェントの応用を可能にする。
コーディングタスクと幅広い実世界の利用を支える指示学習済みバリアントを提供する。
オープンライセンスと公開評価アーティファクトを通じて再現性とコミュニティの普及を促進する。

提案手法

Qwen2.5 に由来する 2 つのモデルサイズ（1.5B および 7B）を導入。アーキテクチャは同一だが隠れ層とヘッド構成が異なる。
ファイルレベルおよびリポジトリレベルの前処理学習と 70% Code / 20% Text / 10% Math のデータ混合で、5.5T トークン規模の大規模事前学習コーパスを構築。
3 段階の学習パイプラインを適用: ファイルレベル前学習、リポジトリレベル前学習、FIM ベースのデータ生成と多言語指示データによる指示学習。
テストデータの重複を排除するデコンタミネーションを実施（テスト集合との 10-gram 重複）。
ベースモデルをコード生成、補完、推論、数学推論、自然言語、長い文脈タスクで評価し、公開評価アーティファクトを用意する。

実験結果

リサーチクエスチョン

RQ1同程度またはより大きいサイズの他のオープンソースモデルと比較して、Qwen2.5-Coder は生成、補完、推論、修復を含むコード関連タスクでどのように性能を示すか？
RQ2慎重に設計されたデータ混合と学習パイプラインが、長い文脈のベンチマークと複数のプログラミング言語で最先端の結果を達成しつつ、一般的な言語能力を維持できるか？
RQ3リポジトリレベル前処理と長い文脈学習が、コード理解と実用的なコーディングタスクに与える影響は何か？

主な発見

Qwen2.5-Coder-7B-Base は、以前の最良の密集モデル DS-Coder-33B-Base をコード生成ベンチマーク全般で上回る。
70/20/10 の Code/Text/Math データ混合と 5.2T トークンで、コード、数学、および一般的な NL ベンチマークで強い性能を発揮。
Qwen2.5-Coder は MultiPL-E の八言語での多言語評価で最先端の結果を示す。
モデルは最大 128K トークンまでの競争力のあるコード埋め込みと長文脈能力を達成し、Needle in the Code テストで 128K 桁の完了が成功を示した。
再現性のための評価アーティファクトとコードが公開されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。