[논문 리뷰] Ontology Based Data Integration Over Document and Column Family Oriented NOSQL
이 논문은 문서형 및 컬럼 패밀리 NoSQL 데이터베이스(예: MongoDB, Cassandra)를 위한 온톨로지 기반 데이터 통합 프레임워크를 제안하며, 스키마가 없는 소스에서 SPARQL 쿼리 처리를 가능하게 한다. 비표준 DL 추론(MSC/LCS)을 통해 국지적 온톨로지를 생성하고, 개념 정렬을 통해 글로벌 온톨로지를 구성하며, NoSQL API에서 실행 가능한 절차적 브릿지 쿼리 언어(BQL)로 SPARQL 쿼리를 번역한다. MongoDB와 Cassandra에 대한 초기 자바 구현이 포함되어 있다.
The World Wide Web infrastructure together with its more than 2 billion users enables to store information at a rate that has never been achieved before. This is mainly due to the will of storing almost all end-user interactions performed on some web applications. In order to reply to scalability and availability constraints, many web companies involved in this process recently started to design their own data management systems. Many of them are referred to as NOSQL databases, standing for 'Not only SQL'. With their wide adoption emerges new needs and data integration is one of them. In this paper, we consider that an ontology-based representation of the information stored in a set of NOSQL sources is highly needed. The main motivation of this approach is the ability to reason on elements of the ontology and to retrieve information in an efficient and distributed manner. Our contributions are the following: (1) we analyze a set of schemaless NOSQL databases to generate local ontologies, (2) we generate a global ontology based on the discovery of correspondences between the local ontologies and finally (3) we propose a query translation solution from SPARQL to query languages of the sources. We are currently implementing our data integration solution on two popular NOSQL databases: MongoDB as a document database and Cassandra as a column family store.
연구 동기 및 목표
- 웹 스케일 애플리케이션에서 흔한 스키마가 없는 NoSQL 데이터베이스를 의미론적 데이터 통합 프레임워크에 통합하는 데 도전하는 것.
- 비표준 기술(예: 최소 특성 개념, 최소 하위 개념 서브스머)을 사용해 NoSQL 데이터에서 국지적 온톨로지를 생성하여 스키마 유사 구조를 유추하는 것.
- 새로운 정렬 방법을 사용해 국지적 온톨로지 간의 의미적 대응 관계를 발견하여 일관된 글로벌 온톨로지를 구성하는 것.
- 글로벌 온톨로지에서 SPARQL 쿼리 처리를 가능하게 하기 위해 쿼리를 NoSQL 데이터베이스에서 실행 가능한 절차적 코드로 번역하는 것.
- SPARQL를 NoSQL 전용 API로 매핑하는 브릿지 쿼리 언어(BQL)를 구현하여 MongoDB와 Cassandra에서의 쿼리 실행을 지원하는 것.
제안 방법
- 스키마가 없는 NoSQL 데이터 인스턴스와 구조에서 국지적 온톨로지를 유도하기 위해 형식적 개념 분석(FCA)과 비표준 DL 추론(MSC 및 LCS)을 사용한다.
- 국지적 온톨로지의 개념 간 의미적 대응 관계를 발견하기 위해 새로운 정렬 방법을 적용하여 글로벌 온톨로지를 구성한다.
- SPARQL 쿼리를 NoSQL 전용 API 호출로 매핑하는 고수준의 선언적 절차적 언어인 브릿지 쿼리 언어(BQL)를 설계한다.
- SPARQL 쿼리를 'foreach' 및 'get' 연산과 키-값 필터를 사용한 쿼리 실행 계획을 표현하는 BQL 프로그램으로 번역한다.
- 언어 및 스토어에 특화된 번역 규칙을 사용하여 BQL 프로그램을 특정 NoSQL 데이터베이스용 구체적 절차적 코드(예: 자바)로 매핑한다.
- MongoDB(문서 스토어)와 Cassandra(컬럼 패밀리 스토어)를 대상으로 Java API를 사용하여 프레임워크를 검증한다.
실험 결과
연구 질문
- RQ1비표준 DL 추론(예: 최소 특성 개념, 최소 하위 개념 서브스머)을 사용해 스키마가 없는 NoSQL 데이터베이스에서 국지적 온톨로지를 자동으로 생성할 수 있는가?
- RQ2다양한 NoSQL 소스를 위한 일관된 글로벌 온톨로지로의 통합을 위해 국지적 온톨로지를 효과적으로 정렬하고 융합하는 데 필요한 기법은 무엇인가?
- RQ3표준 선언적 쿼리 언어가 없는 NoSQL 데이터베이스에서 글로벌 온톨로지에서 표현된 SPARQL 쿼리를 효과적으로 실행 가능한 쿼리로 번역할 수 있는가?
- RQ4SPARQL와 NoSQL 전용 절차적 API를 연결하는 브릿지 쿼리 언어(BQL)의 실현 가능성과 표현력은 어떠한가?
- RQ5이 프레임워크는 문서형 및 컬럼 패밀리 NoSQL 스토어 간의 확장성 있고 분산된 데이터 통합을 어느 정도 지원할 수 있는가?
주요 결과
- MSC 및 LCS 추론을 사용해 NoSQL 데이터에서 국지적 온톨로지를 성공적으로 생성하여 인스턴스 데이터에서 스키마 유추가 가능해졌다.
- 새로운 정렬 방법을 통해 국지적 온톨로지 간의 의미적 대응 관계를 발견하여 일관된 글로벌 온톨로지를 구성했다.
- SPARQL 쿼리가 NoSQL API에 적합한 절차적 쿼리 실행 계획을 표현하는 BQL 프로그램으로 정확하게 번역되었다.
- BQL 언어를 통해 MongoDB 및 Cassandra 모두에 대한 절차적 코드(예: 자바)로의 번역이 가능해졌으며, 다양한 NoSQL 모델 간의 실현 가능성을 입증했다.
- SPARQL를 NoSQL 전용 API로 매핑함으로써 분산 쿼리 실행을 지원하여 이질적인 소스에서 효율적인 데이터 검색이 가능해졌다.
- 초기 구현을 통해 프레임워크의 실현 가능성 확인되었으며, 향후 쿼리 최적화 및 그래프 데이터베이스로의 확장 작업 진행 중이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.