Skip to main content
QUICK REVIEW

[논문 리뷰] Dividing the Ontology Alignment Task with Semantic Embeddings and Logic-based Modules

Ernesto Jiménez-Ruiz, Asan Agibetov|arXiv (Cornell University)|2020. 02. 25.
Semantic Web and Ontologies인용 수 4
한 줄 요약

이 논문은 의미 임베딩과 논리 기반 모듈을 사용하여 대규모 온톨로지 매칭 작업을 더 작고 관리하기 쉬운 하위 작업으로 나누는 새로운 프레임워크를 제안한다. 신경망 임베딩을 활용해 의미 유사도를 계산하고 자가 포함 논리 모듈을 생성함으로써, 정렬 커버리지(coverage)를 유지하면서도 검색 공간을 크게 줄여, OAEI largebio 트랙의 대규모 온톨로지와 같은 시스템이 성공적으로 처리할 수 있도록 한다.

ABSTRACT

Large ontologies still pose serious challenges to state-of-the-art ontology alignment systems. In this paper we present an approach that combines a neural embedding model and logic-based modules to accurately divide an input ontology matching task into smaller and more tractable matching (sub)tasks. We have conducted a comprehensive evaluation using the datasets of the Ontology Alignment Evaluation Initiative. The results are encouraging and suggest that the proposed method is adequate in practice and can be integrated within the workflow of systems unable to cope with very large ontologies.

연구 동기 및 목표

  • 매우 대규모 온톨로지를 처리할 때 온톨로지 정합 시스템의 확장성 도전 과제를 해결하기 위해.
  • 큰 매칭 작업의 검색 공간을 줄이면서도 정렬 커버리지를 유지하기 위해.
  • 기존의 온톨로지 정합 시스템이 대규모 온톨로지를 처리할 수 있도록 작업을 독립적인 하위 작업으로 분해함으로써 가능하게 하기 위해.
  • 최소한의 정보 손실로 매칭 작업을 분할하는 공식적이고 의미 기반의 방법을 제공하기 위해.
  • OAEI 벤치마킹 이니셔티브와 같은 실제 평가 워크플로우에 프레임워크를 통합하기 위해.

제안 방법

  • 사전 훈련된 신경망 임베딩을 사용해 온톨로지 레이블과 용어에서 의미 역색인 인덱스(LexI)를 구축하여 의미 유사도를 포착하기 위해.
  • 의미 역색인을 활용해 온톨로지를 더 작고 의미적으로 일관된 하위 작업으로 분할하기 위해.
  • 각 하위 작업에 대해 국소성 기반 논리 모듈을 생성하여 의미적으로 관련된 축약 및 엔티티가 포함되도록 하기 위해.
  • 매칭 하위 작업을 ⟨Oi₁, Oi₂⟩로 정의하여 Oi₁ ⊆ O1 및 Oi₂ ⊆ O2를 만족시켜 독립성과 처리 가능성 확보하기 위해.
  • 참고 정합이 하위 작업 내에서 발견 가능함을 확인하기 위해 커버리지의 형식적 개념을 적용하기 위해.
  • 기존 정합 시스템에 분할 파이프라인을 통합하여 핵심 정합 논리 변경 없이도 확장성을 향상시키기 위해.

실험 결과

연구 질문

  • RQ1신경망 임베딩 기반 접근법이 대규모 온톨로지 매칭 작업을 정확하게 더 작은 독립 하위 작업으로 나누며 정렬 커버리지를 유지할 수 있는가?
  • RQ2하위 작업의 크기가 후속 정합 시스템의 성능(정밀도, 재현율, F-측정치)에 어떤 영향을 미치는가?
  • RQ3논리 기반 모듈이 분할된 하위 작업에서 의미적 완전성을 유지하는 데 얼마나 기여하는가?
  • RQ4제안된 프레임워크가 이전에 대규모 온톨로지에서 실패했던 정합 시스템이 성공적으로 작업을 완료하도록 할 수 있는가?
  • RQ5분할 수가 정합 과정의 전체 품질과 계산 가능성에 어떤 영향을 미치는가?

주요 결과

  • 제안된 방법은 OAEI largebio 트랙의 대규모 온톨로지 매칭 작업을 더 작은 하위 작업으로 성공적으로 분할하여, 이전에 실패했던 다섯 개의 시스템이 작업을 완료할 수 있도록 했다.
  • 하위 작업의 크기 비율이 크게 감소했으며, 개별 하위 작업의 크기 비율은 1.0 이하로 유지되었지만, 중복으로 인해 하위 작업 전체의 집계 크기 비율은 1.0을 초과할 수 있었다.
  • 프레임워크는 높은 정합 커버리지를 유지하여, 기준 정합이 하위 작업 내에서 발견 가능하도록 보장했다.
  • YAM-Bio와 AML와 같은 시스템은 분할 간 유사한 F-측정치를 유지했으며, LogMap은 분할 수가 증가함에 따라 F-측정치가 약간 감소했다.
  • 풍부한 어휘를 갖춘 시스템, 특히 NCI Thesaurus와 같은 경우에도 확장성이 입증되었으며, 대규모이고 어휘가 다양한 온톨로지에서도 효율성을 유지했다.
  • 논리 기반 모듈의 사용으로 관련 축약 및 엔티티가 보존되어 분할 과정에서의 정보 손실를 최소화했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.