[论文解读] Impact of URI canonicalization on memento count
本文研究了URI规范化对网页存档中快照计数的影响,发现TimeMaps中的大量URI-M会重定向到其他捕获结果,而非返回唯一的内容表示。对于google.com,84.9%的URI-M会重定向,表明TimeMaps高估了非重定向捕获的数量,从而影响了快照计数的准确性。
Memento TimeMaps [5] list identifiers for archival web captures (URI-Ms). When some URI-Ms are dereferenced, they redirect to a different URI-M instead of a unique representation at the datetime. This suggests that confidently obtaining an accurate count quantifying the number of non-forwarding captures for an Original Resource URI (URI-R) is not possible using a TimeMap alone and that the magnitude of a TimeMap is not equivalent to the number of representations it identifies. This work represents an abbreviated version of the full technical report describing this phenomena in depth [3]. For google.com we found that 84.9% of the URI-Ms in a TimeMap result in an HTTP redirect when dereferenced. The full study applies this technique to seven other URI-Rs of large Web sites and 13 academic institutions. Using a ratio metric for the number of URI-Ms without redirects to those requiring a redirect when dereferenced, five of the eight large web sites' and two of the thirteen academic institutions' TimeMaps had a ratio of less than one, indicating that more than half of the URI-Ms in these TimeMaps result in redirects when dereferenced.
研究动机与目标
- 评估Memento TimeMaps在准确量化原始资源URI(URI-R)的非重定向网页捕获方面的可靠性。
- 研究URI规范化如何影响网页存档中快照发现的一致性与准确性。
- 评估TimeMaps因包含重定向的URI-M而高估唯一内容表示数量的程度。
- 量化在不同大型网站和学术机构中,非重定向与重定向URI-M的比例。
- 证明TimeMap的大小并不等同于实际唯一捕获的数量,从而挑战网页存档指标中既有的假设。
提出的方法
- 对TimeMap中列出的每个URI-M进行解析,观察其返回的是唯一内容表示还是触发了HTTP重定向。
- 收集并分析每个URI-M解析的HTTP响应状态码,将其分类为直接表示或重定向。
- 计算一个比例指标:TimeMap中非重定向URI-M的数量除以URI-M总数,以评估有效捕获的比例。
- 将该方法应用于七个大型网站和十三所学术机构,以使研究发现具有更广泛的代表性。
- 使用该比例指标识别出超过一半URI-M导致重定向的TimeMaps,表明其可能高估了快照数量。
实验结果
研究问题
- RQ1在Memento TimeMaps中,有多少URI-M会触发HTTP重定向而非返回直接表示?
- RQ2在不同大型网站和学术机构中,非重定向与重定向URI-M的比例如何变化?
- RQ3TimeMaps中重定向的存在在多大程度上损害了快照计数估算的准确性?
- RQ4该比例指标能否可靠地识别出高估URI-R唯一捕获数量的TimeMaps?
- RQ5重定向的URI-M对TimeMaps作为网页存档完整性的衡量标准的可靠性有何影响?
主要发现
- 对于google.com,当对TimeMap中的84.9%的URI-M进行解析时,均触发了HTTP重定向,表明绝大多数不会返回唯一的内容表示。
- 在所研究的八个大型网站中,有五个的非重定向与重定向URI-M比例低于1,意味着其超过一半的URI-M会重定向。
- 在十三所学术机构中,有两所的该比例也低于1,表明重定向的URI-M并不仅限于商业网站。
- 本研究证明,TimeMap的大小并不等同于唯一内容表示的数量,因为许多URI-M会导向重定向。
- 研究结果挑战了TimeMaps能准确反映非重定向捕获数量的假设,揭示了快照计数中存在系统性问题。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。