Skip to main content
QUICK REVIEW

[論文レビュー] CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language Model

Liang Xu, Xuanwei Zhang|arXiv (Cornell University)|Mar 3, 2020
Topic Modeling参考文献 11被引用数 34
ひとこと要約

CLUECorpus2020 を紹介する。100 GB の大規模な中国語の生データコーパスを用いた言語モデルの事前学習と、コンパクトな語彙および事前学習済みモデルを提供する。中国語 NLP ベンチマークでの高い性能と効率化の向上を実証する。

ABSTRACT

In this paper, we introduce the Chinese corpus from CLUE organization, CLUECorpus2020, a large-scale corpus that can be used directly for self-supervised learning such as pre-training of a language model, or language generation. It has 100G raw corpus with 35 billion Chinese characters, which is retrieved from Common Crawl. To better understand this corpus, we conduct language understanding experiments on both small and large scale, and results show that the models trained on this corpus can achieve excellent performance on Chinese. We release a new Chinese vocabulary with a size of 8K, which is only one-third of the vocabulary size used in Chinese Bert released by Google. It saves computational cost and memory while works as good as original vocabulary. We also release both large and tiny versions of the pre-trained model on this corpus. The former achieves the state-of-the-art result, and the latter retains most precision while accelerating training and prediction speed for eight times compared to Bert-base. To facilitate future work on self-supervised learning on Chinese, we release our dataset, new vocabulary, codes, and pre-trained models on Github.

研究の動機と目的

  • 事前学習言語モデルおよび生成のために、ラベルなしの大規模で高品質な中国語コーパスを提供する。
  • 異なるデータサイズと語彙に対して、CLUECorpus2020 での学習が中国語NLPタスクの性能にどう影響するかを評価する。
  • コンパクトな中国語語彙(vocab_clue)を提案・公開し、効率的な学習と推論のために大規模・小型の事前学習モデルの両方を可能にする。
  • 事前学習モデルを用いた関連する中国語NLPタスク間の転移学習による潜在的な利点を示す。

提案手法

  • Common Crawl から中国語テキストの品質を重視したフィルタリングルールと重複排除を適用して、100 GB の中国語コーパスを組み立てる。
  • 前訓練対応形式を定義(1行につき1文、文書ごとに空行)、train/dev/test の分割を選定する(概ね 99:0.5:0.5)。
  • 冗長なトークンを削除し、中国語/英語のトークン化を調整して、8K サイズのコンパクトな語彙(vocab_clue)を作成する。
  • CLUECorpus2020 上で複数の BERT 風モデルを訓練し、Google の語彙および Wiki/C5 のベースラインと、CLUE ベンチマークタスクを用いて比較する。
  • 注意機構を含むモデル変種(例えば minus-and-multiplication 変種)や大規模 vs 小型の事前学習モデルを用いて、効率と精度を評価する。
  • 訓練データ量(1 GB、3 GB、100 GB)および学習ステップを変えてデータスケールの影響を評価し、ベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1CLUECorpus2020 での事前学習が、標準ベンチマークに渡って中国語理解へどのように影響するか?
  • RQ2提案された vocab_clue と Google の元の語彙を下流タスクで使用する影響はどうなるか?
  • RQ3事前学習データサイズと訓練ステップを増やすことがモデル性能に与える影響は?
  • RQ4コンパクトで効率的なモデル(tiny 変種)は、性能を大きく落とさずに推論/訓練速度を大幅に向上させることができるか?
  • RQ5関連する中国語タスク間の転移学習は、文ペアタスクの性能向上につながるか?

主な発見

  • CLUECorpus2020 で訓練されたモデルは、データセットで完全に訓練された場合、中国語ベンチマークで競争力のある、または最先端の結果を達成する。
  • コンパクトな 8K 語彙(vocab_clue)は、パラメータを削減し訓練を高速化しつつ、下流タスクの性能を大規模な語彙と同等にする。
  • The CLUE vocabulary enables faster training (approximately 15.4% speedup) with smaller model sizes compared to Google’s vocabulary.
  • 訓練データ量を 1 GB から 3 GB 以上へ増やすと、一般にタスク全体の性能が向上する。
  • Tiny variants like RoBERTa-tiny-clue retain most precision while substantially increasing inference/training speed (up to about 8x faster than BERT-base in some setups).
  • 関連タスク間の転移学習(例: CMNLI to AFQMC)は、文ペアタスクの性能を向上させる可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。