Skip to main content
QUICK REVIEW

[论文解读] Ontology Based Data Integration Over Document and Column Family Oriented NOSQL

Olivier Curé, Myriam Lamolle|arXiv (Cornell University)|Jul 9, 2013
Semantic Web and Ontologies参考文献 26被引用 26
一句话总结

本文提出了一种基于本体的数据集成框架,用于文档型和列族型NoSQL数据库(例如,MongoDB、Cassandra),支持对无模式数据源的SPARQL查询处理。该框架通过非标准描述逻辑推理(MSC/LCS)生成本地本体,通过概念对齐构建全局本体,并将SPARQL查询转换为可在NoSQL API上执行的程序化桥接查询语言(BQL),目前已实现针对MongoDB和Cassandra的Java接口。

ABSTRACT

The World Wide Web infrastructure together with its more than 2 billion users enables to store information at a rate that has never been achieved before. This is mainly due to the will of storing almost all end-user interactions performed on some web applications. In order to reply to scalability and availability constraints, many web companies involved in this process recently started to design their own data management systems. Many of them are referred to as NOSQL databases, standing for 'Not only SQL'. With their wide adoption emerges new needs and data integration is one of them. In this paper, we consider that an ontology-based representation of the information stored in a set of NOSQL sources is highly needed. The main motivation of this approach is the ability to reason on elements of the ontology and to retrieve information in an efficient and distributed manner. Our contributions are the following: (1) we analyze a set of schemaless NOSQL databases to generate local ontologies, (2) we generate a global ontology based on the discovery of correspondences between the local ontologies and finally (3) we propose a query translation solution from SPARQL to query languages of the sources. We are currently implementing our data integration solution on two popular NOSQL databases: MongoDB as a document database and Cassandra as a column family store.

研究动机与目标

  • 为解决在Web规模应用中常见的无模式NoSQL数据库集成到语义数据集成框架中的挑战。
  • 使用非标准描述逻辑推理(如最特定概念、最小概念次序子)从NoSQL数据中生成本地本体,以推断类似模式的结构。
  • 通过一种新颖的对齐方法发现本地本体之间的语义对应关系,构建全局本体。
  • 通过将查询转换为可在NoSQL数据库上执行的程序化代码,实现在全局本体上处理SPARQL查询。
  • 实现一种桥接查询语言(BQL),将SPARQL映射到NoSQL特定API,支持在MongoDB和Cassandra上执行查询。

提出的方法

  • 使用形式概念分析(FCA)和非标准描述逻辑推理(MSC与LCS)从NoSQL数据实例和结构中推导出本地本体。
  • 应用一种新颖的对齐方法,发现本地本体中概念之间的语义对应关系,从而构建全局本体。
  • 设计一种桥接查询语言(BQL),作为高层级、声明式的程序化语言,将SPARQL查询映射到NoSQL特定API调用。
  • 将SPARQL查询转换为BQL程序,使用类似'foreach'和'get'操作(带键值过滤)的构造来表达查询执行计划。
  • 通过语言和存储特定的转换规则,将BQL程序映射为具体程序代码(如Java),用于特定的NoSQL数据库。
  • 使用Java API对MongoDB(文档存储)和Cassandra(列族存储)的实现进行框架验证。

实验结果

研究问题

  • RQ1如何使用非标准描述逻辑推理从无模式NoSQL数据库中自动生成本地本体?
  • RQ2哪些技术能够有效实现本地本体的对齐与合并,从而为异构NoSQL数据源构建一致的全局本体?
  • RQ3如何将基于全局本体表达的SPARQL查询有效转换为缺乏标准声明式查询语言的NoSQL数据库的可执行查询?
  • RQ4一种桥接查询语言(BQL)在连接SPARQL与NoSQL特定程序化API方面,其可行性与表达能力如何?
  • RQ5该框架在多文档和列族型NoSQL存储之间支持可扩展、分布式的数据集成的程度如何?

主要发现

  • 该框架成功利用MSC与LCS推理从NoSQL数据中生成本地本体,实现了从实例数据中推断模式的能力。
  • 通过一种新颖的对齐方法发现本地本体之间的语义对应关系,构建了结构一致的全局本体。
  • SPARQL查询被准确地转换为表达程序化查询执行计划的BQL程序,适用于NoSQL API。
  • BQL语言能够转换为MongoDB和Cassandra的程序代码(如Java),证明其在不同NoSQL模型间的可行性。
  • 该方法通过将SPARQL映射到NoSQL特定API,支持分布式查询执行,实现从异构数据源的高效数据检索。
  • 初步实现验证了该框架的可行性,目前正致力于查询优化及向图数据库的扩展。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。