[論文レビュー] Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese
Mengziは、103Mパラメータの中国語事前学習モデルファミリー(識別型、生成型、金融、マルチモーダル variantsを含む)で、設計された軽量な事前学習とファインチューニング戦略により、モデルアーキテクチャを変更せずにCLUEの結果が高くなる。
Although pre-trained models (PLMs) have achieved remarkable improvements in a wide range of NLP tasks, they are expensive in terms of time and resources. This calls for the study of training more efficient models with less computation but still ensures impressive performance. Instead of pursuing a larger scale, we are committed to developing lightweight yet more powerful models trained with equal or less computation and friendly to rapid deployment. This technical report releases our pre-trained model called Mengzi, which stands for a family of discriminative, generative, domain-specific, and multimodal pre-trained model variants, capable of a wide range of language and vision tasks. Compared with public Chinese PLMs, Mengzi is simple but more powerful. Our lightweight model has achieved new state-of-the-art results on the widely-used CLUE benchmark with our optimized pre-training and fine-tuning techniques. Without modifying the model architecture, our model can be easily employed as an alternative to existing PLMs. Our sources are available at https://github.com/Langboat/Mengzi.
研究の動機と目的
- 効率的で軽量な中国語事前学習モデルを、より大きいモデルと同等またはそれ以下の計算量で実現する。
- モデルサイズを増やすことなく容量を高める事前学習目的と最適化戦略を設計・評価する。
- 配備が容易な Mengzi ファミリーをリリースする(識別、生成、ドメイン別、マルチモーダル)。
- 中国語の言語理解と生成タスクで高い性能を示す。
提案手法
- バックボーンは RoBERTa ベースの Mengzi、12 層、768 隠れ層サイズ、103M パラメータ(Mengzi-BERT-base)。
- Pre-training uses masked language modeling (MLM) with a 21,128-token vocabulary on a 300GB Chinese corpus (Wikipedia, News, Common Crawl).
- Two-stage mixed-batch pre-training with LAMB optimizer; first 9/10 epochs use sequence length 128, last 1/10 epochs use length 512; batch sizes 16384 and 32768.
- 言語的動機付けの目的(POS/NEシーケンスラベリング)と文の順序予測(SOP)を取り入れ、表現を強化。
- ダイナミックグラデーション補正を導入し、訓練の安定化と効率向上。
- ファインチューニングでは、知識蒸留、転移学習、選択平滑化、敵対的学習、データ拡張などの戦略を探索。
実験結果
リサーチクエスチョン
- RQ1103M-パラメータの中国語PLMは、アーキテクチャの変更なしに事前学習目的と訓練手順を最適化することで、より大きなモデルを凌ぐことができるか?
- RQ2言語情報に基づく目的と訓練ダイナミクスは、中国語の GLUE様タスクと MRC ベンチマークのパフォーマンスを大幅に改善するか?
- RQ3下流のファインチューニング戦略(蒸留、転移学習、平滑化、 adversarial、データ拡張)は、タスク全体の性能にどのように影響するか?
- RQ4Mengzi バリアント(discriminative, generative, financial, multimodal)を現実的な中国語NLPタスクへ展開する際の実用的な影響と導入の容易さはどうか?
主な発見
- Mengzi は CLUEのベンチマークで強い成果を挙げ、同規模のベースラインや一部設定でより大型の中国語モデルを上回る。
- 103M Mengzi-BERT-base バリアントは、複数の CLUE サブタスクで BERT および RoBERTa のベースラインを上回る改善を示す。
- 言語駆動型の訓練目的とダイナミックグラデーション補正は、事前学習で顕著な性能向上に寄与。
- ファインチューニング技術(知識蒸留、転移学習、選択平滑化、敵対的訓練、データ拡張)は下流タスクで追加の精度向上をもたらす。
- Mengzi のリリースには Mengzi-BERT-base, Mengzi-BERT-base-fin, Mengzi-T5-base, Mengzi-Oscar-base が含まれ、テキストのみ、生成、金融分野、マルチモーダル機能を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。