Skip to main content
QUICK REVIEW

[論文レビュー] COVID-Twitter-BERT: A Natural Language Processing Model to Analyse COVID-19 Content on Twitter

Martín Müller, Marcel Salathé|arXiv (Cornell University)|May 15, 2020
Misinformation and Its Impacts被引用数 135
ひとこと要約

COVID-Twitter-BERT (CT-BERT) は COVID-19 Twitter データで事前学習されたドメイン特化型 BERT モデルで、BERT-Large よりも5つの Twitter ベースの分類タスクで改善を示し、特に COVID-19 コンテンツに対して改善が見られる。

ABSTRACT

In this work, we release COVID-Twitter-BERT (CT-BERT), a transformer-based model, pretrained on a large corpus of Twitter messages on the topic of COVID-19. Our model shows a 10-30% marginal improvement compared to its base model, BERT-Large, on five different classification datasets. The largest improvements are on the target domain. Pretrained transformer models, such as CT-BERT, are trained on a specific target domain and can be used for a wide variety of natural language processing tasks, including classification, question-answering and chatbots. CT-BERT is optimised to be used on COVID-19 content, in particular social media posts from Twitter.

研究の動機と目的

  • ソーシャルメディア上の COVID-19 コンテンツに関する NLP 分析の改善を動機づける。
  • COVID-19 の Twitter データで事前学習させることにより、ドメイン特化型のトランスフォーマーモデルを開発する。
  • 複数の Twitter ベースタスクにおいて CT-BERT を一般ドメインモデルと比較評価する。

提案手法

  • Crowdbreaks を介して収集された 160 million の COVID-19 ツイートを用いて BERT-Large モデルを事前学習する。
  • リツイートと重複を除去し、ユーザー名とURLを仮名化してデータをクリーンアップする。
  • 30,000 語の語彙でツイートをトークン化し、シーケンス長を 96 に制限する。
  • 学習率を一定の 2e-5 でトレーニングし、10x の重複ファクターを使用して 285M の学習例を作成する。
  • 5つのダウンストリーム分類データセットで、複数のファインチューニング実行を用いて CT-BERT を BERT-Large と比較評価する。
  • 再現性のため、GitHub を通じてコードとモデルへのアクセスを提供する。

実験結果

リサーチクエスチョン

  • RQ1COVID-19 の Twitter データでのドメイン特化事前学習は、一般ドメインモデルと比較して下流の分類性能を改善するか?
  • RQ2COVID-19 に関連するタスクと非 COVID-19 の Twitter タスクにおけるゲインはどの程度大きいか?
  • RQ3事前学習ステップと下流のパフォーマンスとの関係はタスク横断でどうなるか?

主な発見

データセットBERT-LargeCT-BERTΔMP
COVID-19 Category (CC)0.9310.94925.88%
Vaccine Sentiment (VC)0.8240.86925.27%
Maternal Vaccine Stance (MVS)0.6960.74817.07%
Stanford Sentiment Treebank 2 (SST-2)0.9370.94410.67%
Twitter Sentiment SemEval (SE)0.6200.6548.97%
Average0.8020.83317.57%
  • CT-BERT は 平均 F1 を 0.802(BERT-Large)から 0.833 に向上させ、5つのデータセットで改善を達成した。
  • 相対的な最大改善(ΔMP)は COVID-19 カテゴリ データセットで 25.88% 。
  • ワクチン感情(MVS)は 17.07%、SST-2 は 10.67%、SE は 8.97%、平均 ΔMP は 17.57% を示す。
  • CT-BERT は特に COVID-19 およびワクチン関連の Twitter データなど、健康関連の COVID-19 コンテンツに対して最も大きな利益を達成する。
  • 中間的な事前学習のチェックポイントでは、下流の利益の大半は 100–200k ステップで生じ、その後は還元が生じる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。