QUICK REVIEW

[논문 리뷰] In the Eyes of the Beholder: Analyzing Social Media Use of Neutral and Controversial Terms for COVID-19

Lei Chen, Lyu H|arXiv (Cornell University)|2020. 04. 21.

Sentiment Analysis and Opinion Mining참고 문헌 23인용 수 22

한 줄 요약

이 연구는 주로 '중국 바이러스'라는 논란이 있는 용어와 중립적인 용어 'COVID-19'를 사용한 트위터 논의를 주제 모델링과 LIWC 기반 정서 분석을 통해 분석하여, 두 용어가 언어적 및 정서적으로 어떻게 다름을 밝혀낸다. 최신 트랜스포머 기반 모델을 활용해, '중국 바이러스'는 부정적 정서, 정치적 비판, 중국 및 정부 중심의 주제와 연관되어 있는 반면, 'COVID-19'는 사실 기반, 미래 지향적이고 더 분석적으로 긍정적인 논의와 연결되어 있음을 입증한다.

ABSTRACT

During the COVID-19 pandemic, "Chinese Virus" emerged as a controversial term for coronavirus. To some, it may seem like a neutral term referring to the physical origin of the virus. To many others, however, the term is in fact attaching ethnicity to the virus. While both arguments appear reasonable, quantitative analysis of the term's real-world usage is lacking to shed light on the issues behind the controversy. In this paper, we attempt to fill this gap. To model the substantive difference of tweets with controversial terms and those with non-controversial terms, we apply topic modeling and LIWC-based sentiment analysis. To test whether "Chinese Virus" and "COVID-19" are interchangeable, we formulate it as a classification task, mask out these terms, and classify them using the state-of-the-art transformer models. Our experiments consistently show that the term "Chinese Virus" is associated with different substantive topics and sentiment compared with "COVID-19" and that the two terms are easily distinguishable by looking at their context.

연구 동기 및 목표

사회적 논의에서 '중국 바이러스'와 같은 논란이 있는 용어의 사용이 단지 바이러스의 기원을 기술하는 데서 넘어서 감정적 또는 이념적 내용을 담고 있는지 조사하기 위해.
COVID-19에 대한 논란이 있는 용어와 중립적 용어를 사용한 트윗의 언어적 및 정서적 특성 간 비교하기 위해.
최신 자연어 처리(NLP) 모델을 활용해 '중국 바이러스'와 'COVID-19'가 맥락상 서로 교환 가능한지 평가함으로써 그 구별 가능성을 검증하기 위해.
팬데믹 기간 동안 공적 논의에서 기강을 해치는 용어 사용과 관련된 잠재적 심리적 태도를 규명하기 위해.

제안 방법

논란이 있는 용어 '중국 바이러스'(CD)와 중립적 용어 'COVID-19'(ND)를 포함한 트윗에서 주제를 추출하고 비교하기 위해 잠재적 디리히레트 분할(LDA)을 적용하였다.
LIWC2015를 사용하여 CD와 ND 트윗의 다차원적 언어적 특성, 즉 정서, 인지 과정, 정서적 어조를 분석하였다.
용어의 교환 가능성 문제를 텍스트 분류 작업으로 재구성하여, 대상 용어를 마스킹하고 트랜스포머 기반 모델(BERT, XLNet 등)을 사용해 그 존재를 예측하였다.
성능과 내구성을 평가하기 위해 다양한 크기의 데이터셋(100K, 500K, 2M)에서 분류 모델을 훈련하고 평가하였다.
논의의 초점과 어조의 차이를 파악하기 위해 주제 분포와 정서 프로파일의 정성적 분석을 수행하였다.
F1 스코어를 사용해 모델 성능을 평가하여, 맥락적 특성만으로 두 용어가 얼마나 명확히 구별되는지 판단하였다.

실험 결과

연구 질문

RQ1논란이 있는 용어인 '중국 바이러스'의 사용이 바이러스의 기원 기술을 넘어서 감정적 또는 이념적 내용을 담고 있는가?
RQ2COVID-19에 대한 논란이 있는 용어와 비논란적 용어를 사용한 트윗의 언어적 및 주제적 특성은 무엇인가?
RQ3최신 NLP 모델을 활용해 맥락적 특성만으로 '중국 바이러스'와 'COVID-19'를 신뢰성 있게 구별할 수 있는가?

주요 결과

CD 트윗은 중국과 중국 정부를 다루는 데 더 높은 비중을 보였으며, '거짓', '인종차별', '정부', '책임', '선전' 등의 비판적 关련 키워드를 포함한 주제가 뚜렷했다.
ND 트윗은 사망자, 감염자, 의료진과 같은 사실 기반의 건강 관련 주제에 주로 집중했으며, 의견 표현이나 감정적 언어는 최소한이었다.
분류 모델은 높은 F1 스코어를 기록했으며, XLNet-Base, Cased 기준 최대 0.9521까지 도달하여, '중국 바이러스'와 'COVID-19'가 맥락에 따라 매우 명확히 구별됨을 입증했다.
CD 트윗은 분노 감정 수준이 높고 더 부정적인 정서를 보였으며, 반면 ND 트윗은 더 높은 불안, 슬픔, 분석적 사고를 보였고 미래 지향적 행동에 더 초점을 맞추었다.
CD 트윗은 의견 중심 또는 표현 중심 글쓰기에서 흔히 볼 수 있는 의심과 확신 수준이 높았고, 반면 ND 트윗은 어조와 문체 면에서 공식 뉴스 기사와 유사성을 보였다.
ND 용어를 사용한 사용자들은 더 높은 목표 지향성과 진실성 있는 의사소통 스타일을 보였으며, 이는 CD 그룹 대비 더 높은 직장, 재정, 성취 중심의 초점이 반영된 것으로 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.