QUICK REVIEW
[论文解读] Code and data for "Understanding news story chains using information retrieval and network clustering techniques"
Tom Nicholls, Jonathan Bright|arXiv (Cornell University)|Mar 21, 2018
Computational and Text Analysis Methods参考文献 47被引用 28
一句话总结
本文提出一种自动化方法,通过结合信息检索技术计算成对文章相似性与网络聚类(Infomap)算法,从大规模新闻文章语料中检测新闻故事群。该方法应用于61,864篇英国新闻文章,准确识别出故事群,揭示超过50%的新闻内容以故事链形式生产,为媒体与传播研究提供了可扩展的分析单元。
ABSTRACT
This is an implementation of a new news story clustering technique, described in <br> arXiv:1801.07988 and in our paper at ICA '18. It includes proof-of-concept Python 3 and R code together with a sample dataset for replication of the results in the paper.
研究动机与目标
- 为解决媒体研究中缺乏可扩展的新闻故事群识别方法这一问题,尽管故事群在理论上具有重要意义但研究尚不充分。
- 开发一种自动化、计算高效的跨大规模语料库检测关联新闻故事的方法,突破传统基于单篇文章的分析局限。
- 通过人工编码数据验证该方法,展示其在分析英国媒体中新闻故事的普遍性与动态特征方面的实用性。
- 为研究者提供一种新的分析单元——新闻故事,以支持对媒体议程设置、把关机制与报道模式的深入研究。
提出的方法
- 使用信息检索技术,特别是BM25,计算语料库中所有文章对之间的文本相似性。
- 采用滑动窗口策略,通过限制在特定时间范围内的文章对进行比较,降低计算复杂度。
- 构建一个网络模型,其中文章作为节点,相似度得分高于阈值的边构成相似性图。
- 采用Infomap算法进行网络中的社区检测,基于结构凝聚力将文章聚类为独立的故事组。
- 利用较小规模的人工编码数据集验证结果,评估聚类输出的精确率、召回率与F1值。
- 通过识别大故事中的子群聚,实现分层分析,揭示复杂事件的细致报道结构。
实验结果
研究问题
- RQ1英国媒体中新闻故事群的普遍程度如何?有多少比例的新闻生产发生在这些故事群中?
- RQ2基于文本相似性与网络聚类的自动化方法,在检测故事群方面与人工编码相比,准确度如何?
- RQ3故事群如何随时间形成、演变并最终消散,特别是在重大新闻事件的推动下?
- RQ4该方法能否区分单一事件中的不同子故事,例如同一事件的不同阶段?
- RQ5与单个文章相比,将新闻故事作为分析单位对媒体与传播研究有何影响?
主要发现
- 在英国媒体语料中,超过50%的新闻生产发生在故事群中,表明从故事层面分析是理解媒体产出的关键。
- 该方法在验证中表现优异,F1值表明其在人工编码数据中识别故事群时具有高精确率与高召回率。
- 该方法成功识别出重大事件中的子群聚——如波士顿马拉松爆炸案与李·里吉事件的谋杀案——将不同叙事阶段(如事件即时反应与法律程序)清晰分离。
- Infomap算法检测分层子结构的能力表明,某些故事由多个在概念上独立但内部凝聚力强于整体故事凝聚力的子故事组成。
- 结果表明,新闻机构往往将重大事件视为多维度的叙事,具有可计算分离的不同报道阶段。
- 该方法实现了新闻在故事层面的可扩展、自动化分析,为大规模媒体研究提供了一种可行的替代方案,避免了耗时的人工编码。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。