QUICK REVIEW

[論文レビュー] COVID-Twitter-BERT: A Natural Language Processing Model to Analyse COVID-19 Content on Twitter

Martín Müller, Marcel Salathé|arXiv (Cornell University)|May 15, 2020

Misinformation and Its Impacts被引用数 135

ひとこと要約

COVID-Twitter-BERT (CT-BERT) は COVID-19 Twitter データで事前学習されたドメイン特化型 BERT モデルで、BERT-Large よりも5つの Twitter ベースの分類タスクで改善を示し、特に COVID-19 コンテンツに対して改善が見られる。

ABSTRACT

In this work, we release COVID-Twitter-BERT (CT-BERT), a transformer-based model, pretrained on a large corpus of Twitter messages on the topic of COVID-19. Our model shows a 10-30% marginal improvement compared to its base model, BERT-Large, on five different classification datasets. The largest improvements are on the target domain. Pretrained transformer models, such as CT-BERT, are trained on a specific target domain and can be used for a wide variety of natural language processing tasks, including classification, question-answering and chatbots. CT-BERT is optimised to be used on COVID-19 content, in particular social media posts from Twitter.

研究の動機と目的

ソーシャルメディア上の COVID-19 コンテンツに関する NLP 分析の改善を動機づける。
COVID-19 の Twitter データで事前学習させることにより、ドメイン特化型のトランスフォーマーモデルを開発する。
複数の Twitter ベースタスクにおいて CT-BERT を一般ドメインモデルと比較評価する。

提案手法

Crowdbreaks を介して収集された 160 million の COVID-19 ツイートを用いて BERT-Large モデルを事前学習する。
リツイートと重複を除去し、ユーザー名とURLを仮名化してデータをクリーンアップする。
30,000 語の語彙でツイートをトークン化し、シーケンス長を 96 に制限する。
学習率を一定の 2e-5 でトレーニングし、10x の重複ファクターを使用して 285M の学習例を作成する。
5つのダウンストリーム分類データセットで、複数のファインチューニング実行を用いて CT-BERT を BERT-Large と比較評価する。
再現性のため、GitHub を通じてコードとモデルへのアクセスを提供する。

実験結果

リサーチクエスチョン

RQ1COVID-19 の Twitter データでのドメイン特化事前学習は、一般ドメインモデルと比較して下流の分類性能を改善するか？
RQ2COVID-19 に関連するタスクと非 COVID-19 の Twitter タスクにおけるゲインはどの程度大きいか？
RQ3事前学習ステップと下流のパフォーマンスとの関係はタスク横断でどうなるか？

主な発見

データセット	BERT-Large	CT-BERT	ΔMP
COVID-19 Category (CC)	0.931	0.949	25.88%
Vaccine Sentiment (VC)	0.824	0.869	25.27%
Maternal Vaccine Stance (MVS)	0.696	0.748	17.07%
Stanford Sentiment Treebank 2 (SST-2)	0.937	0.944	10.67%
Twitter Sentiment SemEval (SE)	0.620	0.654	8.97%
Average	0.802	0.833	17.57%

CT-BERT は平均 F1 を 0.802（BERT-Large）から 0.833 に向上させ、5つのデータセットで改善を達成した。
相対的な最大改善（ΔMP）は COVID-19 カテゴリデータセットで 25.88% 。
ワクチン感情（MVS）は 17.07%、SST-2 は 10.67%、SE は 8.97%、平均 ΔMP は 17.57% を示す。
CT-BERT は特に COVID-19 およびワクチン関連の Twitter データなど、健康関連の COVID-19 コンテンツに対して最も大きな利益を達成する。
中間的な事前学習のチェックポイントでは、下流の利益の大半は 100–200k ステップで生じ、その後は還元が生じる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。