Skip to main content
QUICK REVIEW

[论文解读] 205.3 The Many Shapes of Archive-It.

Shawn Jones, Alexander C. Nwala|arXiv (Cornell University)|Jan 1, 2018
Web Data Mining and Analysis参考文献 8被引用 3
一句话总结

本文提出使用结构化元数据——如馆藏增长曲线和种子特征——来理解 Archive-It 网站存档馆藏,而无需下载所有回溯版。通过分析时间模式和种子多样性,作者利用随机森林分类器将馆藏的语义类别预测准确率达到加权 F1 得分 0.720,从而实现对大规模网页存档的高效、可扩展表征。

ABSTRACT

Web archives, a key area of digital preservation, meet the needs of journalists, social scientists, historians, and government organizations. The use cases for these groups often require that they guide the archiving process themselves, selecting their own original resources, or seeds, and creating their own web archive collections. We focus on the collections within Archive-It, a subscription service started by the Internet Archive in 2005 for the purpose of allowing organizations to create their own collections of archived web pages, or mementos. Understanding these collections could be done via their user-supplied metadata or via text analysis, but the metadata is applied inconsistently between collections and some Archive-It collections consist of hundreds of thousands of seeds, making it costly in terms of time to download each memento. Our work proposes using structural metadata as an additional way to understand these collections. We explore structural features currently existing in these collections that can unveil curation and crawling behaviors. We adapt the concept of the collection growth curve for understanding Archive-It collection curation and crawling behavior. We also introduce several seed features and come to an understanding of the diversity of resources that make up a collection. Finally, we use the descriptions of each collection to identify four semantic categories of Archive-It collections. Using the identified structural features, we reviewed the results of runs with 20 classifiers and are able to predict the semantic category of a collection using a Random Forest classifier with a weighted average F1 score of 0.720, thus bridging the structural to the descriptive. Our method is useful because it saves the researcher time and bandwidth. Identifying collections by their semantic category allows further downstream processing to be tailored to these categories.

研究动机与目标

  • 超越描述性元数据或内容分析来理解 Archive-It 馆藏,后者对大规模馆藏而言耗时且耗带宽。
  • 识别揭示网页存档馆藏编目与抓取行为的结构化特征。
  • 通过将结构化元数据与描述性语义关联,将馆藏分类为有意义的类别。
  • 减少研究人员下载所有回溯版的需求,仅通过结构化模式推断即可。
  • 开发一种仅使用元数据和结构化特征的可扩展方法,对大规模网页存档进行分类。

提出的方法

  • 将 AlSum 等人的增长曲线概念适配至 Archive-It 馆藏,以建模回溯版在时间上的分布。
  • 引入种子路径深度多样性,以衡量编目者是否选择网站的顶级页面或更深层的内容。
  • 测量域名多样性,以评估馆藏是否包含来自多个不同域名的种子,或是否集中于单一组织。
  • 利用馆藏描述识别出四种语义类别:事件型、组织型、主题型和机构型。
  • 基于结构化特征(增长曲线形状、种子多样性指标)训练随机森林分类器,以预测语义类别。
  • 使用 20 个分类器的测试集上的加权平均 F1 得分评估性能。

实验结果

研究问题

  • RQ1Archive-It 馆藏中回溯版累积的时间模式在多大程度上反映了编目策略?
  • RQ2种子多样性与路径深度在多大程度上反映了馆藏内部编目深度与范围?
  • RQ3仅凭结构化元数据能否高精度预测 Archive-It 馆藏的语义类别?
  • RQ4在识别出的四种语义类别中,增长曲线与种子特征有何差异?
  • RQ5使用仅结构化元数据时,机器学习模型在预测馆藏语义方面的表现如何?

主要发现

  • 增长曲线分析表明,大多数馆藏表现出回溯版累积的偏态分布——即在生命周期早期或晚期集中累积,反映出不同的编目模式。
  • 种子路径深度多样性在不同馆藏间存在显著差异,部分编目者仅选择顶级页面,而另一些则聚焦于网站内部的深层内容。
  • 域名多样性指标显示,馆藏的覆盖范围从单一组织聚焦到广泛多域名覆盖不等,反映出不同的编目目标。
  • 识别出的四种语义类别——事件型、组织型、主题型和机构型——捕捉了不同的档案目的与行为。
  • 随机森林分类器仅使用结构化元数据,即可在预测馆藏语义类别的任务中达到 0.720 的加权平均 F1 得分。
  • 该方法使研究人员无需下载或分析单个回溯版内容,即可推断网页存档馆藏的性质与目的,从而节省时间和带宽。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。