[論文レビュー] Fake Cures: User-centric Modeling of Health Misinformation in Social Media
本研究では、言語的スタイル、感情、ユーザー属性を分析することで、がん治療に関する誤情報の拡散に傾倒するTwitterユーザーを特定するユーザ中心のモデルを開発した。4,212人の実際のユーザーを対象に多段階の選別プロセスを実施し、ロジスティック回帰分類器を訓練した結果、誤情報拡散の予測において90%以上の精度を達成した。これは公衆衛生介入のための有効なツールを提供する。
Social media's unfettered access has made it an important venue for health discussion and a resource for patients and their loved ones. However, the quality of the information available, as well as the motivations of its posters, has been questioned. This work examines the individuals on social media that are posting questionable health-related information, and in particular promoting cancer treatments which have been shown to be ineffective (making it a kind of misinformation, willful or not). Using a multi-stage user selection process, we study 4,212 Twitter users who have posted about one of 139 such "treatments", and compare them to a baseline of users generally interested in cancer. Considering features capturing user attributes, writing style, and sentiment, we build a classifier which is able to identify users prone to propagate such misinformation at an accuracy of over 90%, providing a potential tool for public health officials to identify such individuals for preventive intervention.
研究の動機と目的
- 医学的証拠に反するがんの『治療法』を未検証のまま広めているTwitterユーザーを特定すること。
- がん治療の文脈において、健康に関する誤情報の拡散に傾倒するユーザーの行動的・言語的特徴を理解すること。
- 誤情報拡散の可能性が高いユーザーを一般のがん関心を持つユーザーと区別する予測モデルを開発すること。
- 公衆衛生当局がソーシャルメディア上で健康に関する誤情報の拡散を事前に監視・対処できるツールを提供すること。
- 今後の健康コミュニケーションおよび誤情報研究のための、公開可能なキュレート済みデータセットとしてのがん誤情報拡散ユーザーのリスト(4,212名)を構築すること。
提案手法
- 139の効果のないがん治療法について投稿している実在のユーザーを特定するため、機械学習、クラウドソーシング、ヒューリスティクスを組み合わせた多段階のユーザー選別パイプラインを採用した。
- 名前辞書、組織分類、使用頻度のしきい値を用いて、ボットおよび機関アカウントを除外した。
- ユーザー属性、文章スタイル(例:語彙の洗練度)、感情、投稿時刻を収集・分析した。
- 先行研究から得られた一般のがん関心を持つユーザー群をベースライン群として用い、誤情報拡散ユーザーと比較した。
- ユーザー属性、言語的スタイル、感情、投稿時刻の特徴を用いてロジスティック回帰分類器を訓練し、誤情報拡散の傾向を予測した。
- 保留されたテストセットを用いてモデルの性能を検証した結果、誤情報拡散の可能性が高いユーザーを特定する際、90%以上の精度を達成した。
実験結果
リサーチクエスチョン
- RQ1未検証のがん治療法を拡散するTwitterユーザーの特徴的な行動的・言語的特徴は何か?
- RQ2がん誤情報を拡散するユーザーは、一般のがん関心を持つユーザーと比べて、言語使用や関与のパターンでどのように異なるか?
- RQ3文章スタイル、感情、活動時刻といったユーザー層の特徴は、健康誤情報の拡散可能性を予測できるか?
- RQ4効果のないがん治療法を広めているユーザーは、がん患者である確率が高いのか、それとも健康分野に特化した関心を持つ非患者であるのか?
- RQ5Twitterデータに基づいて訓練されたユーザ中心のモデルは、健康誤情報の拡散に傾倒する個人をどれほど正確に特定できるか?
主な発見
- 効果のないがん治療法を広めているユーザーは、一般のがん関心を持つユーザーと比較して、より洗練された言語を使用する傾向にある。
- これらのユーザーはがんに直接影響を受けていないことが多く、個人の経験に基づいて拡散しているわけではない。
- ロジスティック回帰分類器は、誤情報拡散の可能性が高いユーザーを特定する際、90%以上の精度を達成した。
- モデルは、がんに直接関与していないが健康ディスコースに参加しているユーザーを特定しており、非患者インフルエンサーという明確なグループを特定している。
- 本研究では、がんの『治療法』に関する誤情報が、希望を求める患者によって広められるのではなく、強い健康関心を持つ非患者によって広められる傾向があることが明らかになった。
- 4,212名のユーザーからなるキュレート済みデータセットは、今後の健康誤情報およびソーシャルメディアに関する研究にとって貴重で高品質なリソースを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。