[论文解读] On the Use of ArXiv as a Dataset
本文提出一个开源流水线,用于标准化访问arXiv数据集,支持大规模多模态和关联建模。该研究基于150万篇文章构建了一个包含670万条引用边的引用图,并证明结合全文、摘要、标题和共引用特征可将多类别分类准确率提升至78.4%(top-1),显著优于单一模态基线模型。
The arXiv has collected 1.5 million pre-print articles over 28 years, hosting literature from scientific fields including Physics, Mathematics, and Computer Science. Each pre-print features text, figures, authors, citations, categories, and other metadata. These rich, multi-modal features, combined with the natural graph structure---created by citation, affiliation, and co-authorship---makes the arXiv an exciting candidate for benchmarking next-generation models. Here we take the first necessary steps toward this goal, by providing a pipeline which standardizes and simplifies access to the arXiv's publicly available data. We use this pipeline to extract and analyze a 6.7 million edge citation graph, with an 11 billion word corpus of full-text research articles. We present some baseline classification results, and motivate application of more exciting generative graph models.
研究动机与目标
- 为解决大规模多模态和关联科学数据建模中缺乏标准化、可访问且可比较的基准问题。
- 提供一个统一的开源流水线,用于下载、归一化和结构化arXiv元数据、全文和引用网络。
- 将arXiv确立为下一代图神经网络和多模态模型的基准数据集。
- 通过整合文本和关联结构的基线分类任务,展示arXiv数据集的实用性。
- 通过一个丰富且标准化的数据集,支持未来在链接预测、主题建模、文本分割和自动摘要等任务上的研究。
提出的方法
- 作者开发了一个开源流水线,通过开放档案倡议(OAI)抓取arXiv元数据,并通过arXiv公开API批量下载PDF文件。
- 原始PDF被转换为纯文本,并提取内部arXiv ID,通过识别全文文档中的参考文献来构建共引用网络。
- 使用专用脚本对作者姓名进行归一化并拆分为结构化列表,以提升数据一致性。
- 最终数据集包含150万篇文章、670万条引用边,以及一个包含110亿词的全文语料库,具备丰富的元数据和关联结构。
- 基线分类通过逻辑回归在通用句子编码器生成的嵌入向量上进行,特征组合来自标题、摘要、全文和共引用图。
- 使用Python包'networkx'和'powerlaw'计算幂律指数和网络统计量,以表征引用图的无标度特性。
实验结果
研究问题
- RQ1arXiv能否被系统性地标准化并结构化为大规模、多模态、关联型基准数据集,用于科学建模?
- RQ2不同文本模态(标题、摘要、全文)以及关联特征(共引用)在文章类别分类中的预测性能贡献如何?
- RQ3arXiv引用图的结构特性是什么?与其它知名引用网络相比有何异同?
- RQ4在基于文本的模型中引入图结构在多大程度上能提升科学文献分类的准确率?
- RQ5arXiv数据集能否以标准化且可复现的方式支持高级任务,如链接预测、主题建模和文本生成?
主要发现
- arXiv引用图包含135万个节点和672万条有向边,平均度数为9.933,入度幂律指数为2.93,出度幂律指数为3.93。
- 最大弱连通分量(WCC)占图的62%,表明其具有中等连通性但结构上存在碎片化。
- 仅使用全文特征的分类准确率达到了64.2%(top-1),显著高于仅使用标题(36.6%)和摘要(46.0%)的情况。
- 在结合所有特征(标题、摘要、全文、共引用)时,top-1准确率从仅使用全文的64.2%提升至78.4%。
- 消融研究显示,移除全文特征导致性能下降最大(降至59.0% top-1),表明其在分类中起主导作用。
- 全特征集的困惑度降至2.3,表明预测高度自信且准确,而仅使用标题时困惑度为12.7。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。