Skip to main content
QUICK REVIEW

[论文解读] Analyzing the Persistence of Referenced Web Resources with Memento

Robert Sanderson, Mark Edward Phillips|arXiv (Cornell University)|May 17, 2011
Semantic Web and Ontologies被引用 24
一句话总结

本研究利用Memento框架自动化发现存档版本,分析学术论文中引用的网络资源的持久性。研究考察了来自arXiv和UNT数字图书馆的超过16万个URL,发现arXiv中45%的引用URL虽然仍可访问但未被保存,UNT中28%的引用资源已丢失,凸显了学术存储库中主动网络存档的迫切需求。

ABSTRACT

In this paper we present the results of a study into the persistence and availability of web resources referenced from papers in scholarly repositories. Two repositories with different characteristics, arXiv and the UNT digital library, are studied to determine if the nature of the repository, or of its content, has a bearing on the availability of the web resources cited by that content. Memento makes it possible to automate discovery of archived resources and to consider the time between the publication of the research and the archiving of the referenced URLs. This automation allows us to process more than 160000 URLs, the largest known such study, and the repository metadata allows consideration of the results by discipline. The results are startling: 45% (66096) of the URLs referenced from arXiv still exist, but are not preserved for future generations, and 28% of resources referenced by UNT papers have been lost. Moving forwards, we provide some initial recommendations, including that repositories should publish URL lists extracted from papers that could be used as seeds for web archiving systems.

研究动机与目标

  • 评估不同数字存储库中学术出版物引用的网络资源的长期持久性和可用性。
  • 调查存储库特征或内容类型是否影响引用URL的存活率。
  • 评估Memento框架在自动化发现引用网络资源存档版本方面的有效性。
  • 识别由于链接失效导致的学术传播系统性风险,并为存储库提出可操作的建议。

提出的方法

  • 利用Memento框架自动化访问引用网络资源的存档版本。
  • 收集并分析来自两个不同存储库(arXiv和UNT数字图书馆)的16万余个引用URL。
  • 使用Memento的时间旅行界面,将每个引用URL映射到其在检索时的可用状态,以检查是否存在存档版本。
  • 根据存储库类型和学科领域,利用存储库提供的元数据对结果进行分类。
  • 使用自动HTTP请求和Memento感知爬虫,确定URL是否在不同时期被存档且可访问。
  • 采用统计分析方法,比较不同存储库间的持久率,并识别与内容类型和出版日期相关的趋势。

实验结果

研究问题

  • RQ1不同数字存储库中学术论文引用的网络资源的链接失效率如何?
  • RQ2存储库的性质(如arXiv与UNT数字图书馆)如何影响引用URL的持久性?
  • RQ3引用的网络资源在多大程度上被保存在网页存档中?这种保存程度在不同学科间有何差异?
  • RQ4Memento框架能否有效用于自动化评估学术文献中网络资源的持久性?
  • RQ5URL消失对学术可重复性及长期获取研究背景信息有何影响?

主要发现

  • arXiv论文中引用的66,096个URL(占45%)在本研究期间仍可访问,但未被存档,表明未来存在丢失风险。
  • UNT数字图书馆论文中引用的28%的URL已丢失,表明该存储库的引用资源存在显著链接失效现象。
  • 研究发现,存储库特征和内容类型显著影响引用网络资源的持久性。
  • Memento框架成功实现了对超过16万个URL的规模化、自动化存档版本分析,证明其作为持久性评估工具的可行性。
  • 结果凸显了系统性问题:即使可访问的URL也常未被存档,使学术引用易受未来消失的影响。
  • 研究结论认为,主动存档引用URL至关重要,并建议存储库发布可提取的URL列表,以支持自动化存档。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。