[論文レビュー] Ontology Based Data Integration Over Document and Column Family Oriented NOSQL
本稿では、ドキュメント型およびカラムファミリー型NoSQLデータベース(例:MongoDB、Cassandra)のためのオントロジーに基づくデータ統合フレームワークを提案する。このフレームワークにより、スキーマレスなソースに対してSPARQLクエリ処理が可能になる。非標準の記述論理推論(MSC/LCS)を用いてローカルオントロジーを生成し、概念の整合性をとることでグローバルオントロジーを構築する。さらに、SPARQLクエリをNoSQL APIで実行可能な手続き型のブリッジクエリ言語(BQL)に翻訳する。MongoDBおよびCassandra用の初期Java実装が提供されている。
The World Wide Web infrastructure together with its more than 2 billion users enables to store information at a rate that has never been achieved before. This is mainly due to the will of storing almost all end-user interactions performed on some web applications. In order to reply to scalability and availability constraints, many web companies involved in this process recently started to design their own data management systems. Many of them are referred to as NOSQL databases, standing for 'Not only SQL'. With their wide adoption emerges new needs and data integration is one of them. In this paper, we consider that an ontology-based representation of the information stored in a set of NOSQL sources is highly needed. The main motivation of this approach is the ability to reason on elements of the ontology and to retrieve information in an efficient and distributed manner. Our contributions are the following: (1) we analyze a set of schemaless NOSQL databases to generate local ontologies, (2) we generate a global ontology based on the discovery of correspondences between the local ontologies and finally (3) we propose a query translation solution from SPARQL to query languages of the sources. We are currently implementing our data integration solution on two popular NOSQL databases: MongoDB as a document database and Cassandra as a column family store.
研究の動機と目的
- Webスケールのアプリケーションで一般的なスキーマレスなNoSQLデータベースを、セマンティックデータ統合フレームワークに統合する課題に対処すること。
- 非標準の記述論理推論(例:最も具体的な概念、最小の概念下位)を用いて、NoSQLデータからローカルオントロジーを生成し、スキーマに類似した構造を推論すること。
- 新規の整合化手法を用いてローカルオントロジー間の意味的対応関係を同定し、それらを統合して一貫性のあるグローバルオントロジーを構築すること。
- グローバルオントロジー上でSPARQLクエリを処理可能にするために、クエリをNoSQLデータベースで実行可能な手続き的コードに翻訳すること。
- SPARQLをNoSQL固有のAPIにマッピングするブリッジクエリ言語(BQL)を実装し、MongoDBおよびCassandraでのクエリ実行を可能にすること。
提案手法
- 正式概念分析(FCA)と非標準の記述論理推論(MSCおよびLCS)を用いて、NoSQLデータインスタンスおよび構造からローカルオントロジーを導出する。
- ローカルオントロジー内の概念間の意味的対応関係を発見する新規な整合化手法を適用し、グローバルオントロジーを形成する。
- SPARQLクエリをNoSQL固有のAPI呼び出しにマッピングする高水準で宣言的な手続き型言語としてのブリッジクエリ言語(BQL)を設計する。
- SPARQLクエリを、'foreach'や'get'操作にキー値フィルタを組み合わせた構文を用いて、クエリ実行計画を表現するBQLプログラムに翻訳する。
- 言語およびストア固有の翻訳ルールを用いて、BQLプログラムを特定のNoSQLデータベース用の具体的な手続き的コード(例:Java)に変換する。
- MongoDB(ドキュメントストア)およびCassandra(カラムファミリー・ストア)の両方の実装をJava APIを用いて検証する。
実験結果
リサーチクエスチョン
- RQ1非標準の記述論理推論(例:最も具体的な概念、最小の概念下位)を用いて、スキーマレスなNoSQLデータベースからローカルオントロジーを自動的に生成する方法は何か?
- RQ2異種のNoSQLソース向けに、一貫性のあるグローバルオントロジーに統合可能なローカルオントロジーの整合化と統合を実現する技術は何か?
- RQ3グローバルオントロジー上で記述されたSPARQLクエリを、標準の宣言的クエリ言語を持たないNoSQLデータベースで実行可能なクエリに効果的に翻訳する方法は何か?
- RQ4SPARQLとNoSQL固有の手続き型APIを接続するブリッジクエリ言語(BQL)の実現可能性と表現力はどの程度か?
- RQ5このフレームワークは、ドキュメント型およびカラムファミリー型NoSQLストアにまたがるスケーラブルかつ分散型のデータ統合をどの程度サポートできるか?
主な発見
- 本フレームワークは、MSCおよびLCS推論を用いてNoSQLデータからローカルオントロジーを効果的に生成し、インスタンスデータからスキーマを推論可能にしている。
- 新規の整合化手法により、ローカルオントロジー間の意味的対応関係が同定され、一貫性のあるグローバルオントロジーが構築された。
- SPARQLクエリは、NoSQL APIに適した手続き的クエリ実行計画を表現するBQLプログラムに正確に翻訳された。
- BQL言語は、MongoDBおよびCassandraの両方のデータベースに対して、手続き的コード(例:Java)への変換を可能にし、異なるNoSQLモデル間での実現可能性を示した。
- SPARQLをNoSQL固有のAPIにマッピングすることで、分散クエリ実行が可能になり、異種のソースからの効率的なデータ取得が実現された。
- 初期実装により、フレームワークの実現可能性が確認された。今後の課題として、クエリ最適化の検討と、グラフデータベースへの拡張が進められている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。