Skip to main content
QUICK REVIEW

[论文解读] The Availability and Persistence of Web References in D-Lib Magazine

Frank McCown, Sheffan Chan|arXiv (Cornell University)|Nov 21, 2005
Web Data Mining and Analysis参考文献 15被引用 54
一句话总结

本研究分析了1995年至2004年间发表于D-Lib Magazine的学术文章中网络引用的可用性与持久性。通过对4,387个URL在25周内进行测试,发现研究结束时30%的URL已不可用,URL的半衰期约为10年,并识别出.edu和.net域名、非标准端口以及已废弃的文件扩展名等为失败的预测因素。

ABSTRACT

We explore the availability and persistence of URLs cited in articles published in D-Lib Magazine. We extracted 4387 unique URLs referenced in 453 articles published from July 1995 to August 2004. The availability was checked three times a week for 25 weeks from September 2004 to February 2005. We found that approximately 28% of those URLs failed to resolve initially, and 30% failed to resolve at the last check. A majority of the unresolved URLs were due to 404 (page not found) and 500 (internal server error) errors. The content pointed to by the URLs was relatively stable; only 16% of the content registered more than a 1 KB change during the testing period. We explore possible factors which may cause a URL to fail by examining its age, path depth, top-level domain and file extension. Based on the data collected, we found the half-life of a URL referenced in a D-Lib Magazine article is approximately 10 years. We also found that URLs were more likely to be unavailable if they pointed to resources in the .net, .edu or country-specific top-level domain, used non-standard ports (i.e., not port 80), or pointed to resources with uncommon or deprecated extensions (e.g., .shtml, .ps, .txt).

研究动机与目标

  • 评估学术数字图书馆出版物中引用的网络引用在长期中的可用性与持久性。
  • 识别导致学术网络引用链接断裂(链接腐坏)的系统性因素。
  • 量化在真实世界数字图书馆环境中链接衰减的速度与模式。
  • 评估在25周监测期内被引用URL背后内容的稳定性。
  • 为改善学术出版中的数字保存与引用实践提供数据驱动的见解。

提出的方法

  • 从1995年7月至2004年8月期间发表于D-Lib Magazine的453篇文章中收集了4,387个唯一URL。
  • 自2004年9月至2005年2月,每周进行三次自动URL可用性检查,持续25周。
  • 通过HTTP错误码分类以确定不可用的根本原因,重点关注404(未找到)和500(内部服务器错误)。
  • 通过比较初始检查与最终检查时的文件大小和校验和来衡量内容稳定性,将变化超过1 KB的标记为异常。
  • 分析URL特征,如顶级域名(TLD)、路径深度、文件扩展名和端口使用情况,以识别失败的预测因素。
  • 基于测试URL的故障时间数据,使用生存分析技术估算URL的半衰期。

实验结果

研究问题

  • RQ1在25周的监测期内,D-Lib Magazine文章中网络引用的百分比是多少仍可访问?
  • RQ2被引用URL背后的内容随时间如何变化,其中有多大比例经历了显著修改?
  • RQ3哪些因素——如TLD、文件扩展名或端口使用——与URL不可用性最强相关?
  • RQ4D-Lib Magazine文章中引用的URL的估计半衰期是多少?
  • RQ5不同域名类型(如.edu、.net或国家特定域名)或技术结构的URL,其可用性模式有何差异?

主要发现

  • 约28%的URL在首次检查时即无法解析,最终检查时30%的URL已无法访问,表明存在显著的链接腐坏现象。
  • D-Lib Magazine文章中引用的URL半衰期约为10年,意味着在该时间段内有一半的URL会变得不可用。
  • 仅16%的案例中,URL背后的内容变化超过1 KB,表明大多数被引用的内容在长时间内保持稳定。
  • 不可用的主要原因包括404(未找到)和500(内部服务器错误)HTTP状态码。
  • .edu、.net及国家特定顶级域名中的URL比其他域名更可能失效。
  • 使用非标准端口(非80端口)以及不常见或已废弃的文件扩展名(如.shtml、.ps、.txt)是URL失效的强预测因子。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。