[论文解读] 205.2 Off-Topic Memento Toolkit.
离题备忘录工具包(OTMT)是一种软件工具,利用多种文本相似性度量方法(如余弦相似度、Jaccard距离、Simhash和LSI)检测网页存档集合中的离题备忘录,使研究人员能够识别并排除低价值备忘录。该工具基于一个标准数据集为每种度量方法设定默认阈值,使用TF-IDF余弦相似度时F1得分最高可达0.881。
Web archive collections are created with a particular purpose in mind. A curator selects seeds, or original resources, which are then captured by an archiving system and stored as archived web pages, or mementos. The systems that build web archive collections are often configured to revisit the same original resource multiple times. This is incredibly useful for understanding an unfolding news story or the evolution of an organization. Unfortunately, over time, some of these original resources can go off-topic and no longer suit the purpose for which the collection was originally created. They can go off-topic due to web site redesigns, changes in domain ownership, financial issues, hacking, technical problems, or because their content has moved on from the original topic. Even though they are off-topic, the archiving system will still capture them, thus it becomes imperative to anyone performing research on these collections to identify these off-topic mementos. Hence, we present the Off-Topic Memento Toolkit, which allows users to detect off-topic mementos within web archive collections. The mementos identified by this toolkit can then be separately removed from a collection or merely excluded from downstream analysis. The following similarity measures are available: byte count, word count, cosine similarity, Jaccard distance, Sørensen-Dice distance, Simhash using raw text content, Simhash using term frequency, and Latent Semantic Indexing via the gensim library. We document the implementation of each of these similarity measures. We possess a gold standard dataset generated by manual analysis, which contains both off-topic and on-topic mementos. Using this gold standard dataset, we establish a default threshold corresponding to the best F1 score for each measure. We also provide an overview of potential future directions that the toolkit may take.
研究动机与目标
- 为解决网页存档集合中离题备忘录的问题,此类备忘录会降低数据质量并增加分析负担。
- 开发一个可重用的开源工具包,使研究人员无需手动检查所有备忘录即可检测离题备忘录。
- 评估并比较多种文本相似性度量方法在离题检测中的表现,包括Simhash和LSI的创新应用。
- 基于标准数据集为每种相似性度量方法提供默认阈值,以最大化F1得分。
- 通过排除低信息价值备忘录,支持自动化集合摘要和查找辅助工具。
提出的方法
- 该工具包通过URI-M和URI-T TimeMap元数据从Archive-It集合中获取网页存档备忘录。
- 计算八种相似性度量:字节计数、词数、原始文本和TF-IDF向量的余弦相似度、Jaccard距离和Sørensen-Dice距离,以及原始内容和TF加权内容的Simhash。
- 使用gensim库实现潜在语义索引(LSI),以生成用于余弦相似度的向量表示。
- 为评估目的,人工整理了一个包含1,000个备忘录(500个相关,500个离题)的标准数据集。
- 针对每种相似性度量方法,通过标准数据集的交叉验证,在多次运行中调整阈值以最大化F1得分。
- 该工具包输出基于所选度量方法及其优化阈值分类为离题的备忘录列表。
实验结果
研究问题
- RQ1在网页存档集合中,哪些文本相似性度量方法在识别离题备忘录方面最有效?
- RQ2在检测主题漂移时,每种相似性度量方法的最优阈值是多少,以最大化F1得分?
- RQ3与基于TF-IDF向量的Jaccard和余弦相似度等传统方法相比,Simhash和LSI等方法表现如何?
- RQ4多种度量方法的组合能否使检测性能超越单一度量方法?
- RQ5该工具包在相同标准数据集上的性能与先前工作(特别是AlNoamany等人,2017年)相比如何?
主要发现
- 基于TF-IDF向量的余弦相似度达到最高的F1得分为0.881,优于其他度量方法,包括词数(F1 = 0.788)和字节计数(F1 = 0.756)。
- Jaccard距离度量在0.94的阈值下达到F1得分为0.651,显著优于AlNoamany的Jaccard指数(F1 = 0.538)。
- 将LSI向量的余弦相似度与词数结合,F1得分为0.789,表明多度量融合具有优势。
- 原始内容上的Simhash得分为0.578,而基于TF的Simhash得分为0.523,表明TF加权能提升检测性能。
- 基于LSI的余弦相似度F1得分为0.711(多次运行的平均值),尽管其结果具有非确定性,且本研究未进行完整测试。
- 基于标准数据集推导出的工具包默认阈值,相比任意或启发式阈值,显著提升了检测准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。