[논문 리뷰] CoAID: COVID-19 Healthcare Misinformation Dataset
COVID-19 건강 관리 허위정보에 대한 CoAID 벤치마크 데이터셋을 소개하며, 다수의 플랫폼에서 뉴스 기사, 사용자 참여, 그리고 실제 라벨을 포함합니다.
As the COVID-19 virus quickly spreads around the world, unfortunately, misinformation related to COVID-19 also gets created and spreads like wild fire. Such misinformation has caused confusion among people, disruptions in society, and even deadly consequences in health problems. To be able to understand, detect, and mitigate such COVID-19 misinformation, therefore, has not only deep intellectual values but also huge societal impacts. To help researchers combat COVID-19 health misinformation, therefore, we present CoAID (Covid-19 heAlthcare mIsinformation Dataset), with diverse COVID-19 healthcare misinformation, including fake news on websites and social platforms, along with users' social engagement about such news. CoAID includes 4,251 news, 296,000 related user engagements, 926 social platform posts about COVID-19, and ground truth labels. The dataset is available at: https://github.com/cuilimeng/CoAID.
연구 동기 및 목표
- COVID-19 허위정보와 그것이 사회에 미치는 영향에 대한 연구 필요성을 제고한다.
- 뉴스 기사, 사회적 게시물, 그리고 사용자 참여를 포괄하는 포괄적이고 다중 모달 데이터셋을 제공한다.
- 실세계의 보건의료 중심 COVID-19 콘텐츠에서 허위정보 탐지 모델의 벤치마킹을 가능하게 한다.
- 데이터셋 구성, 분석 및 기본 탐지 성능을 보여주어 향후 연구를 안내한다.
제안 방법
- 신뢰할 수 있는 출처와 사실 확인자들로부터 데이터셋을 구성하여 가짜 및 진짜 COVID-19 보건의료 뉴스를 수집한다.
- 다중 모달 데이터를 크롤링하고 정렬한다: 뉴스 기사, 짧은 주장, 소셜 플랫폼 포스트, 그리고 사용자 참여.
- 최신 정보와 실제 라벨을 자동으로 업데이트한다.
- 기사 내용, 메타데이터, 트윗 및 답글 같은 참여 신호를 포함한 항목별 풍부한 특징을 추출한다.
- 데이터셋에서 다수의 기본 및 최첨단 허위정보 탐지 모델을 평가한다.
실험 결과
연구 질문
- RQ1웹사이트와 소셜 플랫폼 전반에서 COVID-19 허위정보와 사실 정보의 구별 특징은 무엇인가?
- RQ2사용자 참여 신호(트윗, 답글, 게시물)가 COVID-19 컨텐츠의 허위정보 탐지 정확도에 어떻게 기여하는가?
- RQ3CoAID 데이터셋을 사용한 COVID-19 보건의료 허위정보 탐지의 다양한 기본 및 고급 모델의 성능은 어떠한가?
주요 결과
| 방법 | PR AUC | 정밀도 | 재현율 | F1 |
|---|---|---|---|---|
| SVM | 0.3365 | 0.4036 | 0.1322 | 0.1986 |
| LR | 0.2871 | 0.4287 | 0.0690 | 0.1143 |
| RF | 0.3937 | 0.6056 | 0.0581 | 0.1045 |
| CNN | 0.8126 | 0.9653 | 0.1238 | 0.1983 |
| BiGRU | 0.2241 | 0.7476 | 0.0524 | 0.0930 |
| CSI | 0.3576 | 0.6814 | 0.2109 | 0.2283 |
| SAMEv | 0.7901 | 0.8922 | 0.2991 | 0.3400 |
| HAN | 0.6824 | 0.6965 | 0.4659 | 0.5471 |
| dEFEND | 0.7229 | 0.8965 | 0.4847 | 0.5814 |
- CoAID는 다섯 개의 소셜 플랫폼에 걸쳐 가짜/진짜 기사, 짧은 주장, 그리고 광범위한 사용자 참여를 결합한다.
- 최첨단 모델이 기사 내용과 사용자 참여를 활용하는 경우 단순 기본선보다 우수하나 클래스 불균형과 제한된 재현율/F1을 마주한다.
- 모델에 따라 허위정보 탐지 성능이 다르게 나타나며, 더 깊고 다중 모달한 접근(SAMEv, dEFEND 등)이 텍스트만 기반의 기본선보다 PR-AUC 점수가 더 좋다.
- 데이터셋 버전은 시간에 따라 성장하며, 데이터가 진화함에 따라 허위정보 트렌드 및 모델 강건성 분석을 가능하게 한다.
- 공개 릴리스 및 자동 업데이트는 COVID-19 허위정보 탐지에 대한 지속적인 연구를 위한 확장 가능한 벤치마크를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.