[論文レビュー] Qwen Technical Report
QWEN はオープンソースの大規模言語モデルファミリ(ベース、チャット、そして CODE-QWEN と MATH-QWEN-CHAT の専門モデルを含む)を数兆のトークンで事前学習し、SFT および RLHF で整列させ、ツール使用とコード解釈機能を備え、14B および 7B スケールでオープンソース化します。
Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.
研究の動機と目的
- QWEN ベースモデルと整列済みチャットモデルを多様な下流タスクで効果を示すことを実証する。
- 監督学習と人間のフィードバックからの強化学習(SFT および RLHF)がモデルの整列に与える影響を示す。
- 専門的なコーディングモデル(CODE-QWEN、CODE-QWEN-CHAT、MATH-QWEN-CHAT)とその性能を紹介する。
- 研究コミュニティに対し、14B および 7B パラメータのオープンソースのベースおよびチャットモデルを公開する。
提案手法
- 最大3兆トークンに及ぶ多様で多言語のデータセットを用いた QWEN の自己回帰型 pretraining。
- 重複排除、品質フィルタリング、高品質ソースのアップサンプリングを含むデータ前処理。
- Chinese および多言語カバレッジを拡張した 152K ボキャブラリの BPE によるトークン化。
- 結合されていない埋め込み、RoPE の位置埋め込み、QKV におけるバイアス設定、RMSNorm、SwiGLU 活性化といったアーキテクチャ的選択。
- 長いコンテキストを扱うための推論時 NTK-意識の補間、LogN-Scaling、レイヤーごとの窓幅注意を用いたコンテキスト長拡張。
- チャットML風の会話による教師ありファインチューニングと、報酬モデルと PPO 最適化を用いた RLHF による整列。
実験結果
リサーチクエスチョン
- RQ1ベースの QWEN モデルは、複数のタスクで公開ベースラインと比較して標準的なベンチマークでどのように性能を発揮するか?
- RQ2整列(SFT と RLHF)がチャットモデルの性能と人間の好む応答に与える影響はどの程度か?
- RQ3コーディング(CODE-QWEN)と数学(MATH-QWEN-CHAT)に特化したモデルは、各分野の公開競合より優れているか?
- RQ4コンテキスト長拡張手法が長いコンテキストの理解と困難度(パープレックスティ)に与える影響は?
- RQ5オープンソースの QWEN モデルは、ゼロショットおよびファウショットの設定でプロプライエタリなベースラインとどのように比較されるか?
主な発見
- QWEN-14B は複数のベンチマークで従来の 13B SOTA モデルを上回り、言語・知識・推論タスクで力強い性能を示す。
- RLHF に整列された QWEN-CHAT モデルは非常に競争力が高く、ベンチマークの上で GPT-4 に近づくものの、一部のテストで GPT-4 が依然として上回る。
- 専門の CODE-QWEN および CODE-QWEN-CHAT は HumanEval、MBPP などのタスクで高いコード理解・生成能力を発揮し、公開系の競合を上回る。
- MATH-QWEN-CHAT(7B および 14B)は、同程度のサイズの公開系数学モデルを上回り、GSM8K および MATH データセットで GPT-3.5 に近づく。
- コンテキスト長拡張手法(NTK-意識の補間、LogN-Scaling、レイヤーごとの窓幅)により、8192 トークン以上の長い文脈でも性能を効果的に維持。
- QWEN-VL および QWEN-VL-CHAT は先行研究で卓越した視覚言語機能を示し、オープンソース化がシリーズに組み込まれている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。