[論文レビュー] CoAID: COVID-19 Healthcare Misinformation Dataset
複数のプラットフォームにわたるニュース記事、ユーザーのエンゲージメント、グラウンドトゥルースラベルを含むCOVID-19医療情報の誤情報検出用CoAIDベンチマークデータセットを紹介する。
As the COVID-19 virus quickly spreads around the world, unfortunately, misinformation related to COVID-19 also gets created and spreads like wild fire. Such misinformation has caused confusion among people, disruptions in society, and even deadly consequences in health problems. To be able to understand, detect, and mitigate such COVID-19 misinformation, therefore, has not only deep intellectual values but also huge societal impacts. To help researchers combat COVID-19 health misinformation, therefore, we present CoAID (Covid-19 heAlthcare mIsinformation Dataset), with diverse COVID-19 healthcare misinformation, including fake news on websites and social platforms, along with users' social engagement about such news. CoAID includes 4,251 news, 296,000 related user engagements, 926 social platform posts about COVID-19, and ground truth labels. The dataset is available at: https://github.com/cuilimeng/CoAID.
研究の動機と目的
- COVID-19誤情報とその社会的影響を研究する必要性を喚起する。
- ニュース記事、ソーシャル投稿、ユーザーエンゲージメントを含む包括的でマルチモーダルなデータセットを提供する。
- 実世界の医療系COVID-19コンテンツ上で誤情報検出モデルのベンチマーキングを可能にする。
- データセットの構築、分析、およびベースライン検出性能を示し、今後の研究を導く。
提案手法
- 信頼できる情報源とファクトチェッカーから、偽ニュースと真情報のCOVID-19医療ニュースを収集するデータセット構築。
- マルチモーダルデータの収集と整合: ニュース記事、短い主張、ソーシャルプラットフォームの投稿、ユーザーエンゲージメントを含む。
- 最新情報とグラウンドトゥルースラベルを取得する自動更新。
- 各アイテムの豊富な特徴の抽出、記事内容、メタデータ、ツイートや返信などのエンゲージメント信号を含む。
- データセット上で複数のベースラインおよび最先端の誤情報検出モデルの評価。
実験結果
リサーチクエスチョン
- RQ1ウェブサイトやソーシャルプラットフォーム全体で、COVID-19の誤情報と事実情報の相違点は何か?
- RQ2ユーザーエンゲージメント信号(ツイート、返信、投稿)はCOVID-19コンテンツの誤情報検出精度にどう寄与するか?
- RQ3CoAIDデータセットを用いたCOVID-19医療誤情報検出の、さまざまなベースラインおよび高度なモデルの性能はどれくらいか?
主な発見
| 方法 | PR AUC | 適合率 | 再現率 | F1 |
|---|---|---|---|---|
| SVM | 0.3365 | 0.4036 | 0.1322 | 0.1986 |
| LR | 0.2871 | 0.4287 | 0.0690 | 0.1143 |
| RF | 0.3937 | 0.6056 | 0.0581 | 0.1045 |
| CNN | 0.8126 | 0.9653 | 0.1238 | 0.1983 |
| BiGRU | 0.2241 | 0.7476 | 0.0524 | 0.0930 |
| CSI | 0.3576 | 0.6814 | 0.2109 | 0.2283 |
| SAMEv | 0.7901 | 0.8922 | 0.2991 | 0.3400 |
| HAN | 0.6824 | 0.6965 | 0.4659 | 0.5471 |
| dEFEND | 0.7229 | 0.8965 | 0.4847 | 0.5814 |
- CoAIDは偽情報/真情報ニュース、短い主張、そして五つのソーシャルプラットフォームにまたがる広範なユーザーエンゲージメントを組み合わせている。
- 最先端モデルは記事内容とユーザーエンゲージメントを活用することで単純なベースラインを上回るが、クラス不均衡と再現率/F1の制約に直面している。
- 誤情報検出の性能はモデルによって異なる。より深いマルチモーダルアプローチ(例:SAMEv、dEFEND)はテキストのみのベースラインよりPR-AUCスコアが高い。
- データセットのバージョンは時系列で成長を示し、データが進化するにつれて誤情報の傾向とモデルの頑健性を分析できる。
- 公開リリースと自動更新は、COVID-19誤情報検出の継続的研究のためのスケーラブルなベンチマークを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。