[論文レビュー] Text Classification of COVID-19 Press Briefings using BERT and Convolutional Neural Networks.
本稿では、事前学習された埋め込み表現と手動でアノテートされた政治的マニフェストをトレーニングデータとして用い、COVID-19報道機会における政治的ディスcourseを自動的に分類するため、微調整された BERT-CNN モデルを提案する。本研究では、BERTベースの CNN が Word2Vec、GloVe、ELMo などの他の埋め込み手法を上回ることを示し、再トレーニングなしで新しいテキストにおける政治的コンテンツのゼロショット転送学習を可能にすることを示している。
We build a sentence-level political discourse classifier using existing human expert annotated corpora of political manifestos from the Manifestos Project (Volkens et al.,2020a) and applying them to a corpus ofCOVID-19Press Briefings (Chatsiou,2020). We use manually annotated political manifestos as training data to train a local topic ConvolutionalNeural Network (CNN) classifier; then apply it to the COVID-19PressBriefings Corpus to automatically classify sentences in the test corpus.We report on a series of experiments with CNN trained on top of pre-trained embeddings for sentence-level classification tasks. We show thatCNN combined with transformers like BERT outperforms CNN combined with other embeddings (Word2Vec, Glove, ELMo) and that it is possible to use a pre-trained classifier to conduct automatic classification on different political texts without additional training.
研究の動機と目的
- 公衆衛生コミュニケーションにおける文単位の政治的ディスコース分類のための手法を開発すること。
- 特に BERT を含む事前学習された埋め込み表現が、畳み込みニューラルネットワーク(CNN)と組み合わせた際、政治的テキスト分類にどの程度効果的であるかを評価すること。
- 政治的マニフェストでトレーニングされた分類器が、追加の微調整なしに、COVID-19報道機会における政治的コンテンツを分類できるかどうかを調査すること。
- 同じ分類タスクにおいて、BERT-CNN と Word2Vec、GloVe、ELMo を用いた CNN のパフォーマンスを比較すること。
提案手法
- マニフェストプロジェクト(Volkens ら、2020a)の手動でアノテートされた政治的マニフェスト上で、ローカルトピック畳み込みニューラルネットワーク(CNN)を微調整する。
- CNN の入力特徴として、従来の単語埋め込みに代えて、事前学習済みの BERT 埋め込みを使用する。
- 訓練済みの BERT-CNN 分類器を、COVID-19 報道機会コーパス(Chatsiou, 2020)に直接適用し、ゼロショット推論を実行する。
- 複数の埋め込みタイプ(BERT、Word2Vec、GloVe、ELMo)間での分類パフォーマンスを比較する。
- マニフェストからの文単位の政治的ディスコースラベルで CNN をトレーニングし、報道機会のテストセットで評価する。
- 新しい政治的テキストに対して、再トレーニングなしにモデルを適用するための転移学習を用いる。
実験結果
リサーチクエスチョン
- RQ1政治的マニフェストでトレーニングされた BERT-CNN モデルは、COVID-19 報道機会における政治的ディスコースを効果的に分類できるか?
- RQ2文単位の政治的分類において、BERT による特徴表現は Word2Vec、GloVe、ELMo と比べてどの程度優れているか?
- RQ3追加の微調整なしに、事前学習済み分類器を新しい政治的テキストドメインに適用できる範囲はどの程度か?
- RQ4CNN と事前学習済みトランスフォーマー埋め込みを組み合わせることで、他の埋め込み-CNN 組み合わせと比較して分類精度が著しく向上するか?
主な発見
- BERT-CNN モデルは、Word2Vec、GloVe、ELMo 埋め込みを用いた CNN よりも、文単位の政治的ディスコース分類において顕著に優れた性能を示した。
- 本モデルは、新たなドメインでの追加微調整なしに、事前学習済み埋め込みのみを用いても、COVID-19 報道機会コーパスで強力なパフォーマンスを達成した。
- 政治的マニフェストから報道機会への転移学習は効果的であり、新しいデータでモデルを再トレーニングすることなく、自動分類が可能となった。
- BERT と CNN の統合は、多様な政治的テキストタイプにわたる政治的ディスコース分類のための強固なソリューションを提供した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。