QUICK REVIEW

[论文解读] NELL2RDF: Reading the Web, and Publishing it as Linked Data

José M. Giménez‐García, Maísa Duarte|arXiv (Cornell University)|Apr 16, 2018

Semantic Web and Ontologies被引用 1

一句话总结

本文提出 NELL2RDF，一种将 NELL 从网络提取的知识及其丰富的内部溯源元数据转换为标准化、自描述的 RDF 数据集的系统，采用五种不同的重言化模型。主要贡献在于发布了超过 165GB 的结构化、链接式数据，包括已提升和候选信念，附带详细的置信度评分和完整的溯源链，使其成为链接数据云中最为全面的溯源丰富型数据集之一。

ABSTRACT

NELL is a system that continuously reads the Web to extract knowledge in form of entities and relations between them. It has been running since January 2010 and extracted over 50,000,000 candidate statements. NELL's generated data comprises all the candidate statements together with detailed information about how it was generated. This information includes how each component of the system contributed to the extraction of the statement, as well as when that happened and how confident the system is in the veracity of the statement. However, the data is only available in an ad hoc CSV format that makes it difficult to exploit out of the context of NELL. In order to make it more usable for other communities, we adopt Linked Data principles to publish a more standardized, self-describing dataset with rich provenance metadata.

研究动机与目标

使 NELL 的大规模知识库及其详细内部元数据能够超越 NELL 生态系统被访问。
解决 NELL 原生 CSV 格式的局限性，该格式限制了互操作性和重用性。
将 NELL 的数据和元数据作为自描述、机器可处理的链接数据发布，采用既定的 RDF 标准。
通过提供大规模、真实世界的数据集及多种元数据表示模型，支持未来在溯源建模方面的研究。
支持将 NELL 的知识集成到语义推理和信任感知查询系统中。

提出的方法

使用五种不同的重言化模型（RDF 重言化、n 元关系、命名图、单例属性和 NdFluents）将 NELL 的候选信念和已提升信念转换为 RDF。
使用针对每个元数据源的领域特定本体，对溯源元数据（包括组件贡献、置信度评分、时间戳和规则使用情况）进行建模。
将 NELL 的内部元数据（例如来自 CML、CPL、LE、MBL 和电子表格编辑的内容）映射为具有标准化属性和域的 RDF 三元组。
使用 VoID 和 DCAT 词汇描述数据集的结构、大小和分发方式。
以多个数据转储形式发布数据集，并计划未来提供 SPARQL 端点和可解析的 URI。
应用重言化技术，将每个信念表示为具有相关元数据的一等资源，从而实现细粒度的溯源追踪。

实验结果

研究问题

RQ1如何将 NELL 庞大的半结构化知识库及其内部元数据有效转换为标准化、机器可处理的 RDF？
RQ2在五种重言化模型（RDF 重言化、n 元关系、命名图、单例属性、NdFluents）中，哪一种最能保留并暴露 NELL 信念的完整溯源信息？
RQ3同时包含候选信念和已提升信念对最终 RDF 数据集的整体大小和表达能力有何影响？
RQ4如何语义化地建模并发布置信度评分和组件级溯源信息，以支持信任感知推理？
RQ5该数据集能否作为评估真实世界大规模知识图谱中溯源建模技术的稳健测试平台？

主要发现

NELL2RDF 数据集包含超过 165GB 的 RDF 数据，所有模型合计达 14.8 亿个三元组，若包含元数据则增至 8270 亿个三元组。
数据集包含 360 万个已提升信念和 5000 万个候选陈述，显著扩展了可获取知识的范围。
采用五种不同的重言化模型，使得在真实场景中对溯源建模方法进行对比评估成为可能。
元数据丰富的结构支持对信念溯源的细粒度追踪，包括组件贡献、置信度评分和规则使用情况。
数据集使用 VoID 和 DCAT 元数据发布，增强了在链接数据生态系统中的可发现性和互操作性。
作者计划提供 SPARQL 端点并支持可解析的 URI，从而提升数据集在程序化访问和系统集成中的实用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。