[논문 리뷰] MM-COVID: A Multilingual and Multimodal Data Repository for Combating COVID-19 Disinformation
MM-COVID는 COVID-19에 대한 다국어 및 다차원 가짜 뉴스 데이터 세트를 제공하며, 콘텐츠, 사회적 참여 및 시계열 데이터를 여섯 가지 언어에 걸쳐 결합해 교차 언어 및 다중 모달 가짜 뉴스 탐지와 완화를 지원합니다.
The COVID-19 epidemic is considered as the global health crisis of the whole society and the greatest challenge mankind faced since World War Two. Unfortunately, the fake news about COVID-19 is spreading as fast as the virus itself. The incorrect health measurements, anxiety, and hate speeches will have bad consequences on people's physical health, as well as their mental health in the whole world. To help better combat the COVID-19 fake news, we propose a new fake news detection dataset MM-COVID(Multilingual and Multidimensional COVID-19 Fake News Data Repository). This dataset provides the multilingual fake news and the relevant social context. We collect 3981 pieces of fake news content and 7192 trustworthy information from English, Spanish, Portuguese, Hindi, French and Italian, 6 different languages. We present a detailed and exploratory analysis of MM-COVID from different perspectives and demonstrate the utility of MM-COVID in several potential applications of COVID-19 fake news study on multilingual and social media.
연구 동기 및 목표
- 탐지에서 다국어성과 사회적 맥락 신호를 다루기 위해 다국어·다차원 COVID-19 가짜 뉴스 데이터 세트의 필요성을 제시한다.
- 육 언어로 된 가짜/진짜 콘텐츠와 풍부한 사회적/맥락적 특징을 갖춘 MM-COVID를 구성한다.
- 기초 다국어 가짜 뉴스 탐지 방법을 제공하고 데이터 특성을 분석하여 향후 연구를 안내한다.
제안 방법
- Snopes와 Poynter에서 영어, 스페인어, 포르투갈어, 힌디어, 프랑스어, 이탈리아어로 진위 라벨을 수집한다.
- Newspaper3k로 출처 콘텐츠를 크롤링하고 메타데이터(URL, 언어, 날짜, 텍스트, 이미지)를 추출한다.
- Twitter 고급 검색과 twarc를 통해 사회적 참여(트윗, 응답, 리트윗)를 수집하고 사용자 프로필과 타임라인을 수집한다.
- 콘텐츠, 언어, 사회적 맥락, 시간적 특징을 분석하여 가짜 뉴스와 진짜 뉴스 간 차이를 특성화한다.
- 다양한 언어에서 콘텐츠 전용, 사회적 맥 context 전용, 그리고 콘텐츠+사회적 맥락 결합 모델(SVM, XGBoost, dEFEND 변형)을 이용해 기초 탐지기를 평가한다.
실험 결과
연구 질문
- RQ1RQ1 충분한 레이블 데이터가 여러 언어에서 사용 가능할 때 콘텐츠 전용, 사회적 맥락 전용, 그리고 결합 모델의 성능은 어떻게 나타나는가?
- RQ2RQ2 교차 언어 데이터 공유 하에서 저자원 상황에서 성능은 어떻게 변하는가?
- RQ3RQ3 대상 언어에 라벨 데이터가 전혀 없을 때 사회적 맥 context 신호가 교차 언어 가짜 뉴스 탐지를 가능하게 하는가?
주요 결과
- MM-COVID는 다국어 콘텐츠와 사회적 맥 context를 결합해 교차 언어 가짜 뉴스 탐지를 가능하게 한다.
- 콘텐츠+사회적 맥락 모델(dEFEND 변형)은 충분한 자원 환경에서 언어에 관계없이 콘텐츠 전용 베이스라인을 능가한다.
- 저자원 환경에서 대상 언어 데이터와 보조 원 언어 데이터를 함께 사용할 때 사회적 맥 context가 도움이 된다; 대상 언어 데이터가 전혀 없더라도 교차 언어 사회적 맥 context 모델은 여전히 경쟁력 있는 성능을 보인다.
- 시계열적 사회적 참여 패턴은 언어에 의존하지 않는 신호를 드러내어 언어 간 조기 가짜 뉴스 탐지를 지원한다.
- 다수의 언어에서 봇 유사한 사용자 행동이 가짜 뉴스 참여와 상관관계가 있어 탐지에서 사용자 프로필 특징의 가치가 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.