QUICK REVIEW

[論文レビュー] Towards Detecting Rumours in Social Media

Arkaitz Zubiaga, Maria Liakata|arXiv (Cornell University)|Apr 18, 2015

Advanced Text Analysis Techniques参考文献 12被引用数 70

ひとこと要約

本論文では、緊急事態中の会話スレッドを手動で収集・アノテートすることで、SNSにおけるフェイクニュースの検出に向けた新規手法を提示している。タイムラインベースのアプローチにより、検証されていないが報道価値のある主張を同定する。2014年フェอร Gingrich暴動に適用したところ、1,185件のサンプルツイートのうち24.6％がフェイクニュースと特定され、42件の異なる出来事にわたり、キーワードベースの検出を超えた多様で明白でないフェイクニュースを捉える有効性が示された。

ABSTRACT

The spread of false rumours during emergencies can jeopardise the well-being of citizens as they are monitoring the stream of news from social media to stay abreast of the latest updates. In this paper, we describe the methodology we have developed within the PHEME project for the collection and sampling of conversational threads, as well as the tool we have developed to facilitate the annotation of these threads so as to identify rumourous ones. We describe the annotation task conducted on threads collected during the 2014 Ferguson unrest and we present and analyse our findings. Our results show that we can collect effectively social media rumours and identify multiple rumours associated with a range of stories that would have been hard to identify by relying on existing techniques that need manual input of rumour-specific keywords.

研究の動機と目的

緊急時におけるSNSのフェイクニュースを、事前に定義されたキーワードに依存せずに、体系的でタイムラインベースの方法で同定すること。
機械学習による自動フェイクニュース検出を支援するため、フェイクニュースおよび非フェイクニュースの両方を含む豊富なアノテート済みデータセットを構築すること。
フェイクニュースの拡散特性を、フェイクニューススレッドと非フェイクニューススレッドの間で議論の量と進化の違いを比較することで理解すること。
ツイッターの自己是正メカニズムの有効性を、フェイクニュースが会話スレッド内でどのように進化するかを分析することで評価すること。
リアルタイムでの誤情報の早期検出を可能にすることで、緊急対応および公共の安全を支援すること。

提案手法

著者らは、2014年フェルガソン暴動中に、会話を引き起こしたツイートに焦点を当て、時系列順にサンプリングするタイムラインベースのアプローチで、元のツイートを収集した。
その後、各元ツイートに関連する完全な会話スレッド（返信や相互作用を含む）を収集し、議論のダイナミクスを捉えた。
スレッドの分類を支援するため、独自のアノテーションツールを開発した。このツールにより、定義されたフェイクニュース基準に基づき、フェイクニュースまたは非フェイクニュースに分類する人為的アノテーションが可能になった。
フェイクニュースの定義は、検証されていないが、実務的関連性があり、新規性があり、文脈的に曖昧な情報に重きを置き、人々がリスクを管理するのを支援するものである。
アノテーターはタイムラインを読み込み、フェイクニュース基準を満たすストーリーを同定した。これにより、あまり知られていない、またはウイルス的拡散を示さないフェイクニュースの発見が保証された。
この方法により、広く議論されたものだけでなく、目立たないストーリーも含めた、キーワード駆動のアプローチを超えた豊富なデータ収集が可能になった。

実験結果

リサーチクエスチョン

RQ1緊急時におけるリアルタイムSNSストリームで、キーワード依存のない体系的で非キーワード駆動の方法でフェイクニュースを同定するにはどうすればよいか？
RQ22014年フェルガソン暴動のような大規模なSNSイベントにおいて、フェイクニュースの割合と多様性はどの程度か？
RQ3フェイクニューススレッドと非フェイクニューススレッドでは、議論の量（例：返信数）において、どのように差が現れるか？
RQ4会話スレッドは、ユーザーがフェイクニュースを支持または否定する兆候をどの程度示しているか？
RQ5多様なフェイクニュースおよび非フェイクニュースを含む手動アノテート済みデータセットを、自動フェイクニュース検出のための機械学習モデルの学習に使用できるか？

主な発見

2014年フェルガソン暴動から抽出された1,185件のツイートのうち、24.6％がフェイクニュースと分類され、合計291件のフェイクニュースツイートが確認された。
これらのフェイクニュースツイートは、マイケル・ブラウンの銃撃事件のような主要な出来事から、軍事用装備の供与といったあまり知られていない主張まで、42件の異なるストーリーにわたって分布していた。
フェイクニュースは非フェイクニュースよりも平均的にやや多い返信数を示したが、中央値の返信数も高い一方、非フェイクニュースのスレッドに対しても顕著な関与が見られた。
タイムラインベースのアノテーション手法により、キーワードベースのアプローチでは見逃されがちな、低可視性のフェイクニュースを含む広範なストーリー群が同定された。
本データセットには、フェイクニュースおよび非フェイクニュースの両方のスレッドが含まれており、今後の機械学習モデルによる自動フェイクニュース検出の学習に役立つ。
本研究は、会話スレッドの手動による文脈に即したアノテーションが、リアルタイムイベントにおける検証されていない主張の全範囲を的確に捉えるのに有効であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。