Skip to main content
QUICK REVIEW

[논문 리뷰] SERIMI - Resource Description Similarity, RDF Instance Matching and Interlinking

Samur Araújo, Jan Hidders|arXiv (Cornell University)|2011. 07. 06.
Semantic Web and Ontologies참고 문헌 27인용 수 38
한 줄 요약

SERIMI는 사전에 스키마나 도메인 지식이 없이 자원 설명의 유사성을 계산하는 새로운 자동 방법으로, RDF 인스턴스 매칭 및 연계를 수행한다. 링크드 데이터 클라우드에서 확장 가능하고 정확한 연계를 가능하게 하기 위해 RDF 인스턴스 간의 의미적 및 문법적 유사성 측정 방법을 활용함으로써 벤치마크 데이터셋에서 최신 기술들을 능가한다.

ABSTRACT

The interlinking of datasets published in the Linked Data Cloud is a challenging problem and a key factor for the success of the Semantic Web. Manual rule-based methods are the most effective solution for the problem, but they require skilled human data publishers going through a laborious, error prone and time-consuming process for manually describing rules mapping instances between two datasets. Thus, an automatic approach for solving this problem is more than welcome. In this paper, we propose a novel interlinking method, SERIMI, for solving this problem automatically. SERIMI matches instances between a source and a target datasets, without prior knowledge of the data, domain or schema of these datasets. Experiments conducted with benchmark collections demonstrate that our approach considerably outperforms state-of-the-art automatic approaches for solving the interlinking problem on the Linked Data Cloud.

연구 동기 및 목표

  • 수동 규칙 생성 없이 이질적인 RDF 데이터셋 간의 링크드 데이터 클라우드 내 연계 문제를 해결하기 위해.
  • 데이터 스키마나 도메인에 대한 사전 지식 없이 소스 및 타겟 데이터셋 간의 인스턴스를 자동으로 매칭하는 방법을 개발하기 위해.
  • 자원 설명의 의미적 및 문법적 유사성을 활용하여 RDF 인스턴스 매칭의 정확성과 확장 가능성을 향상시키기 위해.
  • 시간이 많이 소요되고 오류가 발생하기 쉬운 전문가가 수작업으로 만든 규칙에 대한 의존도를 줄이기 위해.
  • 성장하는 링크드 데이터 생태계에서 데이터셋 간 연계를 위한 확장 가능한 솔루션을 제공하기 위해.

제안 방법

  • SERIMI는 어휘적, 문법적, 의미적 매칭 기법의 조합을 통해 자원의 텍스트 기반 설명을 바탕으로 RDF 인스턴스 간의 유사성을 계산한다.
  • 자원 설명을 벡터 공간 모델로 표현하고 코사인 유사도를 적용하여 인스턴스 수준의 유사성을 측정한다.
  • 스키마 수준과 인스턴스 수준의 정보를 통합하여, 사전에 스키마가 정렬되지 않은 상황에서도 매칭 정밀도를 향상시킨다.
  • 임계값 기반 접근 방식을 사용하여 다양한 데이터 분포에 맞게 동적으로 매칭을 결정한다.
  • RDF 삼항형의 주어, 서술어, 목적어 문자열을 분석함으로써 내부 및 외부 데이터셋 간의 매칭을 지원한다.
  • 스키마에 종속되지 않도록 설계되어 다양한 이질적인 RDF 데이터셋에 적용 가능하도록 한다.

실험 결과

연구 질문

  • RQ1수동 규칙 생성에 의존하지 않고, 스키마에 종속되지 않은 자동 방법이 높은 정밀도의 RDF 인스턴스 매칭을 달성할 수 있는가?
  • RQ2기존 최신 기술과 비교할 때 SERIMI는 표준 벤치마크에서 어떻게 성능을 내는가?
  • RQ3스키마 지식이 없는 상황에서 자원 설명의 의미적 및 문법적 유사성이 얼마나 연계 정확도를 향상시킬 수 있는가?
  • RQ4SERIMI는 링크드 데이터 클라우드의 대규모 및 이질적인 RDF 데이터셋에서 효과적으로 확장 가능한가?
  • RQ5어휘적, 문법적, 의미적 특징을 통합할 경우 인스턴스 매칭 성능에 어떤 영향을 미치는가?

주요 결과

  • SERIMI는 RDF 연계를 위한 표준 벤치마크 데이터셋에서 기존 자동 인스턴스 매칭 기법들을 뚜렷이 능가한다.
  • 특히 스키마 정보가 제한적이거나 전혀 없는 상황에서 최신 기술들보다 높은 F1 점수를 기록한다.
  • 자원 설명에 의미적 및 문법적 특징을 통합함으로써 매칭 정확도에 명백한 향상이 이루어진다.
  • 다양한 데이터셋에 걸쳐 뛰어난 강건성을 보이며, 스키마나 도메인 전용 튜닝 없이도 높은 성능을 유지한다.
  • 수동 규칙 설정이 없기 때문에 더 빠른 구현과 실제 링크드 데이터 환경에서의 광범위한 적용 가능성이 보장된다.
  • 실험 결과, SERIMI가 텍스트 기반 설명만으로도 고품질의 연계를 가능하게 함을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.