QUICK REVIEW

[논문 리뷰] SERIMI - Resource Description Similarity, RDF Instance Matching and Interlinking

Samur Araújo, Jan Hidders|arXiv (Cornell University)|2011. 07. 06.

Semantic Web and Ontologies참고 문헌 27인용 수 38

한 줄 요약

SERIMI는 사전에 스키마나 도메인 지식이 없이 자원 설명의 유사성을 계산하는 새로운 자동 방법으로, RDF 인스턴스 매칭 및 연계를 수행한다. 링크드 데이터 클라우드에서 확장 가능하고 정확한 연계를 가능하게 하기 위해 RDF 인스턴스 간의 의미적 및 문법적 유사성 측정 방법을 활용함으로써 벤치마크 데이터셋에서 최신 기술들을 능가한다.

ABSTRACT

The interlinking of datasets published in the Linked Data Cloud is a challenging problem and a key factor for the success of the Semantic Web. Manual rule-based methods are the most effective solution for the problem, but they require skilled human data publishers going through a laborious, error prone and time-consuming process for manually describing rules mapping instances between two datasets. Thus, an automatic approach for solving this problem is more than welcome. In this paper, we propose a novel interlinking method, SERIMI, for solving this problem automatically. SERIMI matches instances between a source and a target datasets, without prior knowledge of the data, domain or schema of these datasets. Experiments conducted with benchmark collections demonstrate that our approach considerably outperforms state-of-the-art automatic approaches for solving the interlinking problem on the Linked Data Cloud.

연구 동기 및 목표

수동 규칙 생성 없이 이질적인 RDF 데이터셋 간의 링크드 데이터 클라우드 내 연계 문제를 해결하기 위해.
데이터 스키마나 도메인에 대한 사전 지식 없이 소스 및 타겟 데이터셋 간의 인스턴스를 자동으로 매칭하는 방법을 개발하기 위해.
자원 설명의 의미적 및 문법적 유사성을 활용하여 RDF 인스턴스 매칭의 정확성과 확장 가능성을 향상시키기 위해.
시간이 많이 소요되고 오류가 발생하기 쉬운 전문가가 수작업으로 만든 규칙에 대한 의존도를 줄이기 위해.
성장하는 링크드 데이터 생태계에서 데이터셋 간 연계를 위한 확장 가능한 솔루션을 제공하기 위해.

제안 방법

SERIMI는 어휘적, 문법적, 의미적 매칭 기법의 조합을 통해 자원의 텍스트 기반 설명을 바탕으로 RDF 인스턴스 간의 유사성을 계산한다.
자원 설명을 벡터 공간 모델로 표현하고 코사인 유사도를 적용하여 인스턴스 수준의 유사성을 측정한다.
스키마 수준과 인스턴스 수준의 정보를 통합하여, 사전에 스키마가 정렬되지 않은 상황에서도 매칭 정밀도를 향상시킨다.
임계값 기반 접근 방식을 사용하여 다양한 데이터 분포에 맞게 동적으로 매칭을 결정한다.
RDF 삼항형의 주어, 서술어, 목적어 문자열을 분석함으로써 내부 및 외부 데이터셋 간의 매칭을 지원한다.
스키마에 종속되지 않도록 설계되어 다양한 이질적인 RDF 데이터셋에 적용 가능하도록 한다.

실험 결과

연구 질문

RQ1수동 규칙 생성에 의존하지 않고, 스키마에 종속되지 않은 자동 방법이 높은 정밀도의 RDF 인스턴스 매칭을 달성할 수 있는가?
RQ2기존 최신 기술과 비교할 때 SERIMI는 표준 벤치마크에서 어떻게 성능을 내는가?
RQ3스키마 지식이 없는 상황에서 자원 설명의 의미적 및 문법적 유사성이 얼마나 연계 정확도를 향상시킬 수 있는가?
RQ4SERIMI는 링크드 데이터 클라우드의 대규모 및 이질적인 RDF 데이터셋에서 효과적으로 확장 가능한가?
RQ5어휘적, 문법적, 의미적 특징을 통합할 경우 인스턴스 매칭 성능에 어떤 영향을 미치는가?

주요 결과

SERIMI는 RDF 연계를 위한 표준 벤치마크 데이터셋에서 기존 자동 인스턴스 매칭 기법들을 뚜렷이 능가한다.
특히 스키마 정보가 제한적이거나 전혀 없는 상황에서 최신 기술들보다 높은 F1 점수를 기록한다.
자원 설명에 의미적 및 문법적 특징을 통합함으로써 매칭 정확도에 명백한 향상이 이루어진다.
다양한 데이터셋에 걸쳐 뛰어난 강건성을 보이며, 스키마나 도메인 전용 튜닝 없이도 높은 성능을 유지한다.
수동 규칙 설정이 없기 때문에 더 빠른 구현과 실제 링크드 데이터 환경에서의 광범위한 적용 가능성이 보장된다.
실험 결과, SERIMI가 텍스트 기반 설명만으로도 고품질의 연계를 가능하게 함을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.