QUICK REVIEW

[論文レビュー] In the Eyes of the Beholder: Analyzing Social Media Use of Neutral and Controversial Terms for COVID-19

Lei Chen, Lyu H|arXiv (Cornell University)|Apr 21, 2020

Sentiment Analysis and Opinion Mining参考文献 23被引用数 22

ひとこと要約

本研究では、トランスフォーマー・モデルを用いて、『中国ウイルス』という議論の多い用語と中立的用語『COVID-19』を含むツイートのトピックモデリングおよびLIWCベースのセンチメント分析を実施し、両者の言語的・感情的特徴を比較した。最新のトランスフォーマー・モデルを用いた分析により、『中国ウイルス』は否定的感情、政治的批判、中国および政府をテーマとするトピックと関連している一方、『COVID-19』は事実中心で将来志向的かつより分析的で肯定的な議論と関連していることが示された。

ABSTRACT

During the COVID-19 pandemic, "Chinese Virus" emerged as a controversial term for coronavirus. To some, it may seem like a neutral term referring to the physical origin of the virus. To many others, however, the term is in fact attaching ethnicity to the virus. While both arguments appear reasonable, quantitative analysis of the term's real-world usage is lacking to shed light on the issues behind the controversy. In this paper, we attempt to fill this gap. To model the substantive difference of tweets with controversial terms and those with non-controversial terms, we apply topic modeling and LIWC-based sentiment analysis. To test whether "Chinese Virus" and "COVID-19" are interchangeable, we formulate it as a classification task, mask out these terms, and classify them using the state-of-the-art transformer models. Our experiments consistently show that the term "Chinese Virus" is associated with different substantive topics and sentiment compared with "COVID-19" and that the two terms are easily distinguishable by looking at their context.

研究の動機と目的

SNSにおける『中国ウイルス』のような議論の多い用語の使用が、単なる地理的参照を超えて感情的または思想的内容を伝えるかどうかを調査すること。
COVID-19に対する議論の多い用語と中立的用語を用いたツイートの言語的・感情的特徴を比較すること。
最新のNLPモデルを用いて、『中国ウイルス』と『COVID-19』が文脈上で交換可能かどうかを評価することで、それらの区別可能性を検証すること。
パンデミック期の公共議論におけるステグマ的用語の使用に関連する潜在的なマインドセットを解明すること。

提案手法

『中国ウイルス』（CD）と『COVID-19』（ND）を含むツイートのトピックを抽出・比較するために、潜在ディリクレ配分（LDA）を適用した。
LIWC2015を用いて、CDおよびNDツイートにおけるセンチメント、認知的プロセス、感情的トーンを含む多次元的言語的特徴を分析した。
用語の交換可能性をテキスト分類タスクとして定式化し、ターゲット語をマスキングした上で、トランスフォーマー・モデル（例：BERT、XLNet）を用いてその存在を予測した。
10万件、50万件、200万件という異なるサイズのデータセットを用いて分類モデルを訓練・評価し、性能と頑健性を評価した。
トピック分布およびセンチメントプロファイルの定性的分析を実施し、議論の焦点とトーンの違いを特定した。
F1スコアを用いてモデルの性能を評価し、文脈的特徴のみに基づいて『中国ウイルス』と『COVID-19』がどの程度区別可能であるかを判断した。

実験結果

リサーチクエスチョン

RQ1『中国ウイルス』のような議論の多い用語の使用は、ウイルスの地理的起源を記述する以上の感情的または思想的内容を含んでいるのか？
RQ2COVID-19に対する議論の多い用語と非議論的用語を用いたツイートの言語的・トピック的特徴は何か？
RQ3最新のNLPモデルを用いて、文脈的特徴のみに基づいて『中国ウイルス』と『COVID-19』を信頼性高く区別できるか？

主な発見

『中国ウイルス』を含むツイートは、中国および中国政府について議論する傾向が著しく強く、『嘘』『差別的』『政府』『責任』『プロパガンダ』といった批判的キーワードを含むトピックが顕著であった。
『COVID-19』を含むツイートは、症例数、死亡者数、医療従事者など事実中心の健康関連トピックに主に集中しており、意見的または感情的な言語は最小限に抑えられていた。
分類モデルは高いF1スコアを達成しており、XLNet-Base、キャメルケースで最大0.9521を記録した。これは、『中国ウイルス』と『COVID-19』が文脈に基づいて極めて明確に区別可能であることを示している。
CDツイートは怒りや否定的センチメントが強く、NDツイートは不安、悲しみ、分析的思考が強く、将来志向的な行動に焦点を当てていた。
CDツイートは意見主導または表現的書き込みに見られるような、より懐疑的で確信のある表現を示した一方、NDツイートはトーンと構造がフォーマルなニュース報道に類似していた。
ND用語を使用するユーザーは、勤務、収入、達成といった分野に強く焦点を当てており、CDグループと比較してより目標志向的かつ真実に満ちたコミュニケーション様式を示していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。