[論文レビュー] Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model
CT-LLMは、主に中国データ(800B中国トークン)でゼロショットから学習した2BパラメータのLLMであり、中国語能力を強力に発揮し、競争力のある多言語性能を実現します。オープンソースデータ、CHC-Bench評価、SFT/DPOアライメントを備えます。
In this study, we introduce CT-LLM, a 2B large language model (LLM) that illustrates a pivotal shift towards prioritizing the Chinese language in developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the conventional methodology by primarily incorporating Chinese textual data, utilizing an extensive corpus of 1,200 billion tokens, including 800 billion Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This strategic composition facilitates the model's exceptional proficiency in understanding and processing Chinese, a capability further enhanced through alignment techniques. Demonstrating remarkable performance on the CHC-Bench, CT-LLM excels in Chinese language tasks, and showcases its adeptness in English through SFT. This research challenges the prevailing paradigm of training LLMs predominantly on English corpora and then adapting them to other languages, broadening the horizons for LLM training methodologies. By open-sourcing the full process of training a Chinese LLM, including a detailed data processing procedure with the obtained Massive Appropriate Pretraining Chinese Corpus (MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark (CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster further exploration and innovation in both academia and industry, paving the way for more inclusive and versatile language models.
研究の動機と目的
- 中国語中心のLLMが中国語タスクで英語中心のベースラインを上回ることを示す。
- 高品質な中国語事前学習コーパス(MAP-CC)を提供し、データ処理パイプラインを公開する。
- 監督付きファインチューニングを通じてモデルの多言語適応性と英語能力を示す。
提案手法
- CT-LLMを1,254.68Bトークンの混合データで事前学習し、うち800Bは中国語トークン、300Bは英語トークン、100Bはコードトークン。
- 32層のデコーダーアーキテクチャ、2,048の隠れ層サイズ、16のアテンションヘッド、4,096トークンの文脈長を使用。
- 回転位置エンベディング、SwiGLU活性化、RMSNorm、入出力を共有するエンベディングを効率化のため適用。
- 中国語トークナイザ(baichuan2)をBPEで125,696語彙サイズ、数字レベルのトークン化を用途。
- 中国語と英語データを用いたSFT( supervised fine-tuning )を実施し、評価者としてQwen-7Bを用いて困惑度でフィルタリング。
- 混成の中国語/英語の好みデータセットを用いたDPOによる好み最適化を組み込み、人間の好みと整合させる。
実験結果
リサーチクエスチョン
- RQ1中国語中心の事前学習 regime が英語中心データを使わずに中国語理解・生成で強力な性能を発揮できるか?
- RQ2SFTとDPOアライメントがCT-LLMの中国語能力と多言語能力にどのように影響するか?
- RQ3MAP-CCデータ前処理がモデル品質に与える影響は何か?
- RQ4CT-LLMはCHC-Benchにおける中国語指示理解・遵守で他の2Bモデルと比べてどうか?
- RQ5CT-LLM-SFT-DPOとベースラインの安全性・アライメント特性はどうか?
主な発見
- CT-LLMは中国語コンテンツを重視したデータ混合により中国語の言語能力が顕著に向上した。
- CT-LLMは学際的な分野でバランスの取れた性能を示し、複数ドメインチャレンジで英語中心モデルと比べて英語と中国語のギャップが小さい。
- SFT-DPOアライメントはセーフティと好みベースの応答をベースラインより改善。
- CT-LLMは中国語の指示理解・従順性においてCHC-Benchで競争力がある、または優れている。
- CT-LLM-SFT-DPOは中国語中心の事前学習にも関わらず英語ベンチマークで高い性能を維持。
- 実験結果は2Bモデルとして中国語能力が改善され、マルチリンガル適応性も競合的であることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。