[논문 리뷰] Qwen Technical Report
QWEN은 오픈 소스 대형 언어 모델(Open-Source Large Language Models) 패밀리를 소개합니다(기본 모델, 채팅 모델, 및 CODE-QWEN과 MATH-QWEN-CHAT의 전문화 버전). 조 단위의 토큰으로 사전 학습되었으며, SFT 및 RLHF를 통해 정렬되었고, 도구 사용 및 코드 인터프리터 기능을 갖추고 있으며, 14B 및 7B 규모로 공개 소스화되었습니다.
Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.
연구 동기 및 목표
- QWEN 기본 및 정렬된 채택 모델의 다양 downstream 작업에서의 효과를 시연한다.
- 감독 및 인간 피드백으로부터의 강화 학습(RLHF)의 모델 정렬 영향력을 보여준다.
- 전문화된 코딩 및 수학 모델(CODE-QWEN, CODE-QWEN-CHAT, MATH-QWEN-CHAT)과 그 성능을 소개한다.
- 연구 커뮤니티에 14B 및 7B 매개변수의 기본 및 채팅 모델을 오픈 소스로 출시한다.
제안 방법
- 최대 3조 토큰에 대한 자가회귀식(QWEN) 사전 학습과 다양한 다국어 데이터셋.
- 중복 제거, 품질 필터링, 높은 품질 소스의 업샘플링을 포함한 데이터 전처리.
- 152K 어휘의 BPE 토크나이제이션, 중국어 및 다국어 커버리지를 위한 보강.
- 언어 임베딩 비동일화, RoPE 위치 임베딩, QKV 편향 설정, RMSNorm, SwiGLU 활성화 등 구조적 선택.
- 무한 컨텍스트를 다루기 위한 추론 시 NTK 인식 보간, 로그-스케일링, 계층별 윈도우 어텐션을 통한 컨텍스트 길이 확장.
- ChatML 스타일 대화와 보상 모델 및 PPO 최적화를 이용한 RLHF를 통한 감독 미세조정으로 정렬.
실험 결과
연구 질문
- RQ1기본 QWEN 모델이 여러 작업에서 오픈 소스 벤치마크에 비해 표준 벤치마크에서 어떤 성능을 보이는가?
- RQ2정렬(SFT 및 RLHF)이 채팅 모델의 성능과 인간 선호 응답에 미치는 영향은 무엇인가?
- RQ3코딩(CODE-QWEN) 및 수학(MATH-QWEN-CHAT) 전문 모델이 해당 도메인에서 오픈 소스 경쟁자보다 우수한가?
- RQ4컨텍스트 길이 확장 기법이 긴 컨텍스트 이해도와 perplexity에 미치는 영향은 무엇인가?
- RQ5오픈 소스 QWEN 모델이 제로샷 및 파샷 설정에서 독점 벤치마크와 비교하여 어떤 차이를 보이는가?
주요 결과
- QWEN-14B는 다수의 벤치마크에서 이전의 13B SOTA 모델을 능가하며, 언어, 지식 및 추론 과제에서 강한 성능을 보여준다.
- RLHF로 정렬된 QWEN-CHAT 모델은 매우 경쟁력이 있으며 벤치마크상에서 GPT-4에 접근하지만, 일부 테스트에서 GPT-4가 앞선다.
- 전문화된 CODE-QWEN 및 CODE-QWEN-CHAT은 HumanEval, MBPP 및 관련 과제에서 높은 코드 이해 및 생성을 달성하며 오픈 소스 동료를 능가한다.
- MATH-QWEN-CHAT 모델(7B 및 14B)은 유사 규모의 오픈 소스 수학 모델을 능가하고 GSM8K 및 MATH 데이터 세트에서 GPT-3.5에 접근한다.
- NTK 인식 보간, 로그-스케일링, 계층별 윈도우링은 8192 토큰까지의 성능 유지를 효과적으로 보인다.
- QWEN-VL 및 QWEN-VL-CHAT는 이전 작업에서 우수한 시각-언어 능력을 보여주며, 오픈 소스 버전이 시리즈에 통합되어 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.