QUICK REVIEW

[논문 리뷰] Qwen2.5 Technical Report

Qwen, :|arXiv (Cornell University)|2024. 12. 19.

Topic Modeling인용 수 58

한 줄 요약

Qwen2.5는 데이터와 학습 업그레이드로 다양한 오픈-웨이트 및 MoE LLM 시리즈를 제시하며, 강력한 오픈-웨이트 성능과 경쟁력 있는 호스팅 솔루션을 달성하고, 롱 컨텍스트 기능을 포함한 광범위한 사후 학습 보정도 수행한다.

ABSTRACT

In this report, we introduce Qwen2.5, a comprehensive series of large language models (LLMs) designed to meet diverse needs. Compared to previous iterations, Qwen 2.5 has been significantly improved during both the pre-training and post-training stages. In terms of pre-training, we have scaled the high-quality pre-training datasets from the previous 7 trillion tokens to 18 trillion tokens. This provides a strong foundation for common sense, expert knowledge, and reasoning capabilities. In terms of post-training, we implement intricate supervised finetuning with over 1 million samples, as well as multistage reinforcement learning. Post-training techniques enhance human preference, and notably improve long text generation, structural data analysis, and instruction following. To handle diverse and varied use cases effectively, we present Qwen2.5 LLM series in rich sizes. Open-weight offerings include base and instruction-tuned models, with quantized versions available. In addition, for hosted solutions, the proprietary models currently include two mixture-of-experts (MoE) variants: Qwen2.5-Turbo and Qwen2.5-Plus, both available from Alibaba Cloud Model Studio. Qwen2.5 has demonstrated top-tier performance on a wide range of benchmarks evaluating language understanding, reasoning, mathematics, coding, human preference alignment, etc. Specifically, the open-weight flagship Qwen2.5-72B-Instruct outperforms a number of open and proprietary models and demonstrates competitive performance to the state-of-the-art open-weight model, Llama-3-405B-Instruct, which is around 5 times larger. Qwen2.5-Turbo and Qwen2.5-Plus offer superior cost-effectiveness while performing competitively against GPT-4o-mini and GPT-4o respectively. Additionally, as the foundation, Qwen2.5 models have been instrumental in training specialized models such as Qwen2.5-Math, Qwen2.5-Coder, QwQ, and multimodal models.

연구 동기 및 목표

Qwen2.5가 데이터와 모델 크기를 확장해 추론, 코딩, 수학, 그리고 지시 따르기에 대한 역량을 향상시키는 방법을 시연한다.
사후 학습 전략(SFT, 오프라인/온라인 RL)이 인간 선호도 정렬 및 롱컨텍스트 처리 기능을 향상시키는 방법을 설명한다.
다양한 사용 사례 및 비용 효율적 배포를 가능하게 하는 아키텍처, 토크나이저 및 MoE 개선사항을 제시한다.
동시대 모델 및 호스팅 MoE 변형에 대한 오픈-웨이트 모델의 성능을 기업/API 사용 맥락에서 비교한다.

제안 방법

사전 학습 데이터를 7T에서 18T 토큰으로 확장하고, 큐레이션된 데이터 혼합 및 도메인 균형을 유지한다.
롱 컨텍스트 사전 학습을 도입하고, 확장된 RoPE 기반 주파수 및 컨텍스트 길이를 최대 32,768 토큰(스테이징 학습의 Turbo의 경우 262,144)로 설정한다.
롱 시퀀스 생성, 수학/코딩, 구조화된 데이터 및 다중 언어 데이터 등을 포함한 100만 개가 넘는 감독 미세조정 샘플을 사용한다.
사실성, 지시 이행 및 안전성을 최적화하기 위해 두 단계의 강화학습(오프라인 DPO 스타일 및 온라인 GRPO)을 적용한다.
호스티드 버전(Qwen2.5-Turbo 및 Qwen2.5-Plus)을 위한 MoE 아키텍처와 0.5B–72B 규모의 오픈-웨이트 모델에 대한 밀집(Dense) 모델 사용을 적용한다.

실험 결과

연구 질문

RQ1다양한 지식 도메인(의미 파악, 코딩, 수학)에서 18조 토큰으로 사전 학습 데이터를 확장했을 때 얻는 이점은 무엇인가?
RQ2롱 컨텍스트 학습과 향상된 컨텍스트 길이가 생성 품질과 구조화 데이터 처리에 어떤 영향을 미치는가?
RQ3다단계 사후 학습(SFT, 오프라인 RL, 온라인 RL)이 도메인 전반의 인간 선호도 정렬 및 장문 작업 성능을 향상시키는가?
RQ4오픈-웨이트 밀집 모델 및 MoE 변형이 동시대 모델(Llama-3, Mixtral 등)과 일반, 수학, 코딩, 다국어 과제에서 비교적 어떤 위치를 차지하는가?
RQ5Qwen2.5-Turbo/Plus와 표준 오픈-웨이트 모델 간의 비용 및 지연 시간의 실용적 트레이드오프는 무엇인가?

주요 결과

Qwen2.5-72B-Instruct 오픈-웨이트 모델은 약 5배 더 큰 규모(Llama-3-405B-Instruct) 대비 최첨단 오픈-웨이트 모델과 경쟁력 있는 성능을 보인다.
Qwen2.5-Turbo 및 Qwen2.5-Plus는 GPT-4o-mini 및 GPT-4o를 각각의 기준선에서 경쟁하면서도 비용 효율성이 우수하다.
사전 학습 데이터 규모와 도메인 균형 혼합이 지식, 코딩 및 수학 분야의 도메인 전문성을 향상시키는 데 기여한다.
롱 컨텍스트 기능(베이스 모델은 최대 8K 토큰, Turbo의 경우 최대 1M 토큰)이 장문 생성 및 구조화 데이터 처리 역량을 크게 향상시킨다.
사후 학습은 100만 개가 넘는 SFT 샘플과 두 단계의 RL(오프라인 + 온라인)을 통해 지시 이행, 추론 및 안전성 정렬을 개선한다.
Qwen2.5 모델은 수많은 구성을 가진 광범위한 오픈-웨이트 생태계와 호스팅용 MoE 변형을 가능하게 한다(0.5B–72B).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.