[논문 리뷰] Qwen2.5-Coder Technical Report
Qwen2.5-Coder 시리즈(1.5B 및 7B)는 코드 중심의 LLM으로 Qwen2.5를 기반으로 구축되었고, 5.5trillion-token으로 사전학습되었으며, 코딩용으로 조정되어 10개 이상 벤치마크에서 강력한 성능과 관대한 라이선스를 자랑합니다.
In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes six models: Qwen2.5-Coder-(0.5B/1.5B/3B/7B/14B/32B). As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.5-Coder demonstrates impressive code generation capabilities while retaining general and math skills. These models have been evaluated on a wide range of code-related tasks, achieving state-of-the-art (SOTA) performance across more than 10 benchmarks, including code generation, completion, reasoning, and repair, consistently outperforming larger models of the same model size. We believe that the release of the Qwen2.5-Coder series will advance research in code intelligence and, with its permissive licensing, support wider adoption by developers in real-world applications.
연구 동기 및 목표
- 높은 성능의 오픈 소스 코드 LLM 계열로 코드 인텔리전스를 발전시킨다.
- 선별된 데이터 혼합을 통해 코딩 전문성과 일반 언어 이해의 균형을 맞춘다.
- 긴 맥락의 코드 처리와 실용적 코딩 에이전트 응용을 가능하게 한다.
- 코딩 작업 지원과 광범위한 실세계 사용을 위한 지시 기반 튜닝 변형을 제공한다.
- 오픈 라이선스와 공개 평가 산출물을 통해 재현성과 커뮤니티 채택을 촉진한다.
제안 방법
- 동일한 아키텍처를 갖되 은닉층과 어탭 구성이 다른 두 모델 크기(1.5B 및 7B)를 Qwen2.5로부터 도입한다.
- 파일 단위 및 리포지토리 단위 사전 학습과 함께 5.5 trillion-token 규모의 대규모 사전학습 코퍼스를 구성하고 70% Code / 20% Text / 10% Math 데이터 믹스를 사용한다.
- 파일-레벨 사전학습, 리포지토리-레벨 사전학습, 그리고 FIM 기반 데이터 생성 및 다국어 지시 데이터로 지시 학습을 포함하는 3단계 학습 파이프라인을 적용한다.
- 테스트 데이터와의 중복을 제거하기 위한 오염 제거를 수행한다(테스트 세트와의 10-그램 중복).
- 공개 평가 산출물과 함께 코드 생성, 코드 완성, 추론, 수리 추론, 자연어, 및 긴 맥락 작업에서 기본 모델을 평가한다.
실험 결과
연구 질문
- RQ1동일하거나 더 큰 규모의 다른 오픈 소스 모델과 비교하여 Qwen2.5-Coder가 생성, 완성, 추론, 및 수리와 같은 코드 관련 작업에서 어떤 성능을 보이는가?
- RQ2정교하게 설계된 데이터 혼합과 학습 파이프라인이 일반 언어 능력을 유지하면서 여러 프로그래밍 언어와 긴 맥락 벤치마크에서 최첨단 성과를 낼 수 있는가?
- RQ3리포지토리-레벨 사전학습과 긴 맥락 학습이 코드 이해 및 실용적 코딩 작업에 미치는 영향은 무엇인가?
주요 결과
- Qwen2.5-Coder-7B-Base는 코드 생성 벤치마크에서 이전 최고 Dense 모델 DS-Coder-33B-Base를 능가한다.
- 70/20/10 Code/Text/Math 데이터 혼합과 5.2T 토큰은 코드, 수학, 일반 NL 벤치마크에서 강력한 성능을 낳는다.
- Qwen2.5-Coder는 MultiPL-E에서 여덟 가지 언어에 걸친 다중 언어 평가에서 최첨단 결과를 보여준다.
- 모델은 128K 토큰까지 경쟁력 있는 코드 인필링 및 긴 맥락 능력을 달성하며, Needle in the Code 테스트에서 128K 길이 완성이 성공적으로 나타났다.
- 재현성을 위한 평가 산출물과 코드가 공개적으로 공개된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.