[论文解读] 205.1 Measuring News Similarity Across Ten U.S. News Sites.
本文提出一种方法,通过使用互联网档案馆的归档主页剪辑(mementos)来测量十家美国新闻网站之间的新闻相似度。通过基于CSS选择器的解析提取前k个标题(k=1, 3, 10),并在东部时间20点计算余弦相似度,发现新闻相似度在重大事件(如2016年美国大选和旅行禁令)期间达到峰值,且事件后由于报道同步化,相似度分数上升。
News websites make editorial decisions about what stories to include on their website homepages and what stories to emphasize (e.g., large font size for main story). The emphasized stories on a news website are often highly similar to many other news websites (e.g, a terrorist event story). The selective emphasis of a top news story and the similarity of news across different news organizations are well-known phenomena but not well-measured. We provide a method for identifying the top news story for a select set of U.S.-based news websites and then quantify the similarity across them. To achieve this, we first developed a headline and link extractor that parses select websites, and then examined ten United States based news website homepages during a three month period, November 2016 to January 2017. Using archived copies, retrieved from the Internet Archive (IA), we discuss the methods and difficulties for parsing these websites, and how events such as a presidential election can lead news websites to alter their document representation just for these events. We use our parser to extract k = 1, 3, 10 maximum number of stories for each news site. Second, we used the cosine similarity measure to calculate news similarity at 8PM Eastern Time for each day in the three months. The similarity scores show a buildup (0.335) before Election Day, with a declining value (0.328) on Election Day, and an increase (0.354) after Election Day. Our method shows that we can effectively identity top stories and quantify news similarity.
研究动机与目标
- 开发一种可靠的方法,利用归档网页内容识别主要新闻事件并测量美国新闻网站之间的相似度。
- 解决在重大事件(如2016年美国总统大选)期间动态修改的新闻网站布局带来的解析挑战。
- 通过在标题数据上使用余弦相似度,量化重大政治事件期间媒体对新闻报道的同步程度。
- 评估不同k值(前k条新闻)对相似度分数的影响,并检测媒体关注焦点随时间的变化。
- 识别并记录由于归档网页(mementos)渲染不一致及关键事件期间布局变化导致的解析困难。
提出的方法
- 使用CSS选择器解析来自互联网档案馆的归档新闻主页剪辑,提取前k条新闻的标题和URI(k=1, 3, 10),时间点为东部时间20点。
- 通过视觉显著性(位置、字体大小、图片大小)识别主视觉新闻(Hero stories),使用特定布局的选择器,若解析失败则启用备用方案。
- 对每日十家新闻网站的标题集合应用余弦相似度,测量新闻内容的相似度。
- 针对在重大事件(如2016年大选)期间改变HTML结构的网站,通过维护多组CSS选择器来动态调整解析逻辑。
- 使用2016年11月至2017年1月的归档剪辑,确保时间采样的一致性,避免实时网页的波动性影响。
- 在不同k值下评估相似度分数,以评估敏感性并检测新闻报道的同步模式。
实验结果
研究问题
- RQ1如何利用归档网页内容在多样化的美国新闻网站中一致地识别主要新闻事件?
- RQ2在重大政治事件(如2016年美国总统大选)期间,新闻报道在不同媒体之间的同步程度如何?
- RQ3在高影响力事件期间,网站布局和HTML结构的变化如何影响自动化新闻解析的可靠性?
- RQ4所考虑的新闻条目数量(k)如何影响新闻网站之间测得的相似度?
- RQ5在重大国家事件发生前、期间和之后,标题数据上的余弦相似度能否检测到媒体关注焦点的变化?
主要发现
- 2016年美国总统大选后,余弦相似度分数上升至0.354,表明新闻报道的同步性增强。
- 选举期后,相似度分数从0.417下降至0.343,表明媒体关注焦点发生转移,同步性降低。
- 旅行禁令公告在所有k值下均产生最高的整体相似度分数,表明媒体间高度一致。
- k=1时记录到的最高相似度分数为0.504,出现在2017年1月29日,由特朗普旅行禁令的共享主视觉新闻驱动。
- 在2016年大选期间,十家新闻网站中有五家更改了其HTML结构和CSS命名规范,需动态调整选择器以实现准确解析。
- 部分新闻网站的剪辑渲染不一致,影响了标题提取,凸显依赖网页存档进行媒体分析时的风险。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。