[論文レビュー] COVID-Twitter-BERT: A Natural Language Processing Model to Analyse COVID-19 Content on Twitter
COVID-Twitter-BERT (CT-BERT) は COVID-19 Twitter データで事前学習されたドメイン特化型 BERT モデルで、BERT-Large よりも5つの Twitter ベースの分類タスクで改善を示し、特に COVID-19 コンテンツに対して改善が見られる。
In this work, we release COVID-Twitter-BERT (CT-BERT), a transformer-based model, pretrained on a large corpus of Twitter messages on the topic of COVID-19. Our model shows a 10-30% marginal improvement compared to its base model, BERT-Large, on five different classification datasets. The largest improvements are on the target domain. Pretrained transformer models, such as CT-BERT, are trained on a specific target domain and can be used for a wide variety of natural language processing tasks, including classification, question-answering and chatbots. CT-BERT is optimised to be used on COVID-19 content, in particular social media posts from Twitter.
研究の動機と目的
- ソーシャルメディア上の COVID-19 コンテンツに関する NLP 分析の改善を動機づける。
- COVID-19 の Twitter データで事前学習させることにより、ドメイン特化型のトランスフォーマーモデルを開発する。
- 複数の Twitter ベースタスクにおいて CT-BERT を一般ドメインモデルと比較評価する。
提案手法
- Crowdbreaks を介して収集された 160 million の COVID-19 ツイートを用いて BERT-Large モデルを事前学習する。
- リツイートと重複を除去し、ユーザー名とURLを仮名化してデータをクリーンアップする。
- 30,000 語の語彙でツイートをトークン化し、シーケンス長を 96 に制限する。
- 学習率を一定の 2e-5 でトレーニングし、10x の重複ファクターを使用して 285M の学習例を作成する。
- 5つのダウンストリーム分類データセットで、複数のファインチューニング実行を用いて CT-BERT を BERT-Large と比較評価する。
- 再現性のため、GitHub を通じてコードとモデルへのアクセスを提供する。
実験結果
リサーチクエスチョン
- RQ1COVID-19 の Twitter データでのドメイン特化事前学習は、一般ドメインモデルと比較して下流の分類性能を改善するか?
- RQ2COVID-19 に関連するタスクと非 COVID-19 の Twitter タスクにおけるゲインはどの程度大きいか?
- RQ3事前学習ステップと下流のパフォーマンスとの関係はタスク横断でどうなるか?
主な発見
| データセット | BERT-Large | CT-BERT | ΔMP |
|---|---|---|---|
| COVID-19 Category (CC) | 0.931 | 0.949 | 25.88% |
| Vaccine Sentiment (VC) | 0.824 | 0.869 | 25.27% |
| Maternal Vaccine Stance (MVS) | 0.696 | 0.748 | 17.07% |
| Stanford Sentiment Treebank 2 (SST-2) | 0.937 | 0.944 | 10.67% |
| Twitter Sentiment SemEval (SE) | 0.620 | 0.654 | 8.97% |
| Average | 0.802 | 0.833 | 17.57% |
- CT-BERT は 平均 F1 を 0.802(BERT-Large)から 0.833 に向上させ、5つのデータセットで改善を達成した。
- 相対的な最大改善(ΔMP)は COVID-19 カテゴリ データセットで 25.88% 。
- ワクチン感情(MVS)は 17.07%、SST-2 は 10.67%、SE は 8.97%、平均 ΔMP は 17.57% を示す。
- CT-BERT は特に COVID-19 およびワクチン関連の Twitter データなど、健康関連の COVID-19 コンテンツに対して最も大きな利益を達成する。
- 中間的な事前学習のチェックポイントでは、下流の利益の大半は 100–200k ステップで生じ、その後は還元が生じる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。