Skip to main content
QUICK REVIEW

[論文レビュー] Code and data for "Understanding news story chains using information retrieval and network clustering techniques"

Tom Nicholls, Jonathan Bright|arXiv (Cornell University)|Mar 21, 2018
Computational and Text Analysis Methods参考文献 47被引用数 28
ひとこと要約

本稿では、情報検索による対照的記事類似度とネットワーククラスタリング(Infomap)を組み合わせることで、大規模な記事コーパスからニュースストーリークラスタを自動検出する手法を提示する。61,864件の英国ニュース記事に適用した結果、高い正確性でストーリークラスタを同定し、ニュース生産の50%以上がこのようなストーリーチェーン内に存在することを明らかにした。これは、メディア・コミュニケーション研究におけるスケーラブルな分析単位を提供する。

ABSTRACT

This is an implementation of a new news story clustering technique, described in <br> arXiv:1801.07988 and in our paper at ICA '18. It includes proof-of-concept Python 3 and R code together with a sample dataset for replication of the results in the paper.

研究の動機と目的

  • ニュースストーリークラスタを特定するためのスケーラブルな手法の欠如に応えること。これは理論的に重要であるが、メディア研究においては未だ十分に検討されていない。
  • 大規模コーパスを対象とした、自動的かつ計算効率の良い連携ニュースストーリーの検出手法を開発すること。個々の記事レベルの分析を超える。
  • 手動コード化データを用いた検証を通じて、本手法の妥当性を確認し、英国メディアにおけるニュースストーリーの普及状況とダイナミクスを分析する有効性を示すこと。
  • 研究者に新たな分析単位「ニュースストーリー」を提供し、メディアのアジェンダ設定、ゲートキーピング、報道パターンのより深い分析を可能にする。

提案手法

  • コーパス内の全記事ペair間のテクスト類似度を計算するために、情報検索手法(特にBM25)を用いる。
  • 計算複雑性を低減するため、時間窓を適用し、定義された時間範囲内に発表された記事同士に限定して対照的比較を行う。
  • 記事をノードとし、類似度スコアが閾値を超えるものをエッジとして結ぶことで、類似度グラフを構築する。
  • 構造的結束性に基づいて記事を異なるストーリーグループにクラスタリングするため、ネットワークのコミュニティ検出にInfomapアルゴリズムを適用する。
  • クラスタリング出力の正確性(precision)、再現率(recall)、F1スコアを評価するため、小規模な手動コード化データセットを用いて結果を検証する。
  • 大規模な出来事内に存在するサブクラスタを特定することで階層的分析を可能にし、複雑な出来事における詳細な報道状況を明らかにする。

実験結果

リサーチクエスチョン

  • RQ1英国メディアにおけるニュースストーリークラスタはどの程度広がっており、ニュース生産の何パーセントがそれらのクラスタ内に存在するか?
  • RQ2テクスト類似度とネットワーククラスタリングに基づく自動手法が、手動コード化と比較してどの程度正確にストーリークラスタを検出できるか?
  • RQ3主なニュースイベントへの反応として、ストーリークラスタはどのように形成・発展・消滅するか、時間的経過とともにどう変化するか?
  • RQ4一連の出来事内に存在する異なるサブストーリー(例:一連の出来事の異なる段階)を、本手法は区別できるか?
  • RQ5個々の記事ではなくニュースストーリーを分析単位とする場合、メディア・コミュニケーション研究にどのような意味を持つのか?

主な発見

  • 英国メディアコーパスにおけるニュース生産の50%以上がストーリークラスタ内に存在しており、メディア出力の理解にはストーリーレベルの分析が不可欠であることが示された。
  • 検証において高い性能が得られ、手動コード化データからのストーリークラスタ同定において、F1スコアが高く、精度と再現率の両方が良好であった。
  • 本手法は、ボストンマラソン爆破事件やリー・リーグイの殺害事件といった大規模出来事において、即時の影響と法的手続きの段階といった明確に異なるナラティブフェーズを分離して同定できた。
  • Infomapアルゴリズムが階層的サブ構造を検出できる能力により、一部のストーリーが、全体のストーリーの整合性よりも強い内部的結束性を示す、概念的に異なる複数のサブストーリーから成っていることが明らかになった。
  • 結果から、報道機関が主な出来事を複数の側面を持つ物語として扱い、計算的に分離可能な明確な報道フェーズを経て報道していることが示唆された。
  • 本アプローチにより、ストーリーレベルでのスケーラブルかつ自動化されたニュース分析が可能となり、大規模メディア研究における人的負担の大きい手動コード化の代替手段として実用的であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。