QUICK REVIEW

[论文解读] Qwen2.5-Coder Technical Report

Binyuan Hui, Jian Yang|arXiv (Cornell University)|Sep 18, 2024

Advanced MEMS and NEMS Technologies被引用 31

一句话总结

Qwen2.5-Coder 系列（1.5B 和 7B）是以代码为聚焦的大模型，建立在 Qwen2.5 之上，预训练于 5.5T 令牌，针对编码进行微调，在 10+ 基准上表现优异且许可宽松。

ABSTRACT

In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes six models: Qwen2.5-Coder-(0.5B/1.5B/3B/7B/14B/32B). As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.5-Coder demonstrates impressive code generation capabilities while retaining general and math skills. These models have been evaluated on a wide range of code-related tasks, achieving state-of-the-art (SOTA) performance across more than 10 benchmarks, including code generation, completion, reasoning, and repair, consistently outperforming larger models of the same model size. We believe that the release of the Qwen2.5-Coder series will advance research in code intelligence and, with its permissive licensing, support wider adoption by developers in real-world applications.

研究动机与目标

以高性能、开源的代码 LLM 家族推动代码智能。
通过精心挑选的数据混合，平衡编码专长与通用语言理解。
实现长上下文代码处理和实用的编码代理应用。
提供指令微调的变体以支持编码任务和广泛的现实世界应用。
通过开放授权和公开评估产物促进可重复性和社区采用。

提出的方法

引入两种模型规模（1.5B 和 7B），源自 Qwen2.5，具有相同的架构但隐藏层和头部配置不同。
构建一个包含 5.5 trillion-token 的大型预训练语料库，进行文件级和仓库级预训练，并采用 70% 代码 / 20% 文本 / 10% 数学数据混合。
应用三阶段训练流程：文件级预训练、仓库级预训练，以及带有基于 FIM 的数据生成和多语言指令数据的指令微调。
进行去污染以移除与测试数据的重叠（与测试集的 10-gram 重叠）。
在代码生成、完成、推理、数学推理、自然语言和长上下文任务上评估基础模型，并提供公开的评估产物。

实验结果

研究问题

RQ1与同等或更大规模的其他开源模型相比，Qwen2.5-Coder 在代码相关任务（生成、完成、推理和修复）上的表现如何？
RQ2在保持通用语言能力的同时，经过精心设计的数据混合和训练流程是否能够在多种编程语言和长上下文基准上取得最先进的结果？
RQ3代码理解和实际编码任务中，仓库级预训练和长上下文训练的影响是什么？

主要发现

Qwen2.5-Coder-7B-Base 在代码生成基准上优于先前的最佳密集模型 DS-Coder-33B-Base。
70/20/10 Code/Text/Math 数据混合，带有 5.2T 令牌，在代码、数学和通用 NL 基准上表现出色。
Qwen2.5-Coder 在 MultiPL-E 的八种语言多语言评估中显示了最先进的结果。
该模型在代码空缺补全和长上下文能力方面达到与之竞争的水平，长度可达 128K 令牌，且 Needle in the Code 测试显示成功的 128K 长度完成。
评估产物和用于可重复性的代码已公开发布。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。