[論文レビュー] NELA-GT-2020: A Large Multi-Labelled News Dataset for The Study of Misinformation in News Articles
NELA-GT-2020 は、2020 年に発表された 519 件のニュースソースからなる 178 万件の英語ニュース記事を含む大規模かつマルチラベル付きのニュースデータセットであり、Media Bias/Fact Check によるソースレベルの信頼性ラベルと、41 万件を超える埋め込みツイートを備えている。これは、新型コロナウイルス感染症のパンデミックや 2020 年米国大統領選挙といった高インパクトイベントにおける誤情報、メディアの信頼性、SNS と新聞の相互作用に関する研究を可能にする。
In this paper, we present an updated version of the NELA-GT-2019 dataset, entitled NELA-GT-2020. NELA-GT-2020 contains nearly 1.8M news articles from 519 sources collected between January 1st, 2020 and December 31st, 2020. Just as with NELA-GT-2018 and NELA-GT-2019, these sources come from a wide range of mainstream news sources and alternative news sources. Included in the dataset are source-level ground truth labels from Media Bias/Fact Check (MBFC) covering multiple dimensions of veracity. Additionally, new in the 2020 dataset are the Tweets embedded in the collected news articles, adding an extra layer of information to the data. The NELA-GT-2020 dataset can be found at https://doi.org/10.7910/DVN/CHMUYZ.
研究の動機と目的
- 誤情報とソース信頼性を研究するための、大規模で長期的かつマルチラベル付きのニュースデータセットの不足に対処すること。
- 時間枠を 2020 年に拡大し、データ量とソースの多様性を向上させることで、以前の NELA-GT データセットを拡張すること。
- ニュース記事に埋め込まれたツイートを抽出し、ニュースメディアとソーシャルメディアのコンテンツの相互作用を分析すること。
- 高インパクトイベント中のメディアナラティブと操作行動の機械学習的・縦断的研究を支援すること。
- 再現可能な誤情報検出およびメディア研究を促進するため、公開可能で詳細なドキュメントが整った SQLite および JSON 形式のデータセットを提供すること。
提案手法
- 2020 年 1 月 1 日から 12 月 31 日まで、毎日 2 回、feedparser および goose3 ライブラリを用いた自動 RSS フィード抽出によりニュース記事を収集した。
- Media Bias/Fact Check (MBFC) の Factuality スコアに基づき、ソースレベルの信頼性ラベルを統合し、'信頼できない'、'混合'、'信頼できる' のいずれかにラベル付けした。
- goose3 ライブラリを用いてニュース記事の HTML から埋め込みツイートを抽出し、ツイート本文、投稿者、日付、URL を専用のデータベーステーブルに格納した。
- 一貫性を確保し重複を回避するため、ソース名をすべて小文字に変換し、特殊文字を除去することで正規化した。
- 2020 年第 13 週~第 15 週(3 月 25 日~4 月 8 日)の 3 週間のデータ障害期間における欠落データを線形補間法で推定し、約 15,000 件の記事(データセット全体の 0.8%)を補填した。
- データセットを 2 種類のフォーマットで公開した:構造化された SQLite データベースと、各ニュースソースごとの JSON 辞書形式で、データアクセス用の公開コードを併記した。
実験結果
リサーチクエスチョン
- RQ1信頼性が異なるニュースメディアは、新型コロナウイルス感染症のパンデミック や 2020 年米国大統領選挙といった主要な出来事に対して、どのように報じているか?
- RQ2ニュース記事に埋め込まれたツイートは、記事の真贓性やナラティブフレーミングに、どの程度反映されたり影響を与えたりしているか?
- RQ3埋め込みツイートの統合は、機械学習モデルにおける誤情報検出やソース信頼性の評価を向上させることができるか?
- RQ4MBFC が提供するメディア信頼性ラベルは、2020 年におけるさまざまなニュースソースの記事数とトピック分布とどの程度相関しているか?
- RQ5高インパクトイベント中、信頼できる、混合、信頼できないニュースソース間で、誤情報の拡散がどのように時間的変化を示しているか?
主な発見
- NELA-GT-2020 には、519 件のソースから 1,779,127 件のニュース記事が含まれており、NELA-GT-2019 と比較して 258 件の新規ソースが追加された。主に境界付近または信頼性の低いメディアが含まれる。
- ニュース記事から収集された 410,432 件の埋め込みツイートが含まれており、各ツイートは URL を介してそのソース記事にリンクされ、メタデータとともに格納されている。
- 第 13 週~第 15 週(3 月 25 日~4 月 8 日)に発生したデータ障害により、推定 15,000 件(全体の 0.8%)の記事が欠落したが、後続の補間処理により継続性が回復された。
- 健康関連および一般ニューストピックの報道が著しく増加しており、以前の政治的コンテンツへの集中から拡張された。
- 信頼性クラス(信頼できる、混合、信頼できない)ごとの記事および埋め込みツイートの分布は、バランスが取れており、文書化もされているため、比較分析が可能である。
- 統合された NELA-GT データセットは 3.5 年を超えるニュースデータをカバーしており、誤情報検出モデルの妥当性を検証するための縦断的研究を可能にしている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。