QUICK REVIEW

[논문 리뷰] Multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint

Feiyu Lin, Andrew Krizhanovsky|arXiv (Cornell University)|2011. 09. 04.

Semantic Web and Ontologies참고 문헌 18인용 수 24

한 줄 요약

이 논문은 의미 웹 상호운용성에서 언어 장벽을 극복하기 위해 SPARQL 엔드포인트를 통해 노출된 Wiktionary 데이터를 사용한 다국어 온톨로지 매칭 방법을 제안한다. D2R 서버를 통해 기계로 읽을 수 있는 Wiktionary 항목을 활용하여 RDF 쿼리 기능을 구현함으로써, Google Translate API와 비교해도 경쟁 가능한 매칭 정확도를 달성하였으며, 이는 Wiktionary가 온톨로지 정렬을 위한 다국어 어휘 자원으로서의 타당성을 입증한다.

ABSTRACT

Interoperability is a feature required by the Semantic Web. It is provided by the ontology matching methods and algorithms. But now ontologies are presented not only in English, but in other languages as well. It is important to use an automatic translation for obtaining correct matching pairs in multilingual ontology matching. The translation into many languages could be based on the Google Translate API, the Wiktionary database, etc. From the point of view of the balance of presence of many languages, of manually crafted translations, of a huge size of a dictionary, the most promising resource is the Wiktionary. It is a collaborative project working on the same principles as the Wikipedia. The parser of the Wiktionary was developed and the machine-readable dictionary was designed. The data of the machine-readable Wiktionary are stored in a relational database, but with the help of D2R server the database is presented as an RDF store. Thus, it is possible to get lexicographic information (definitions, translations, synonyms) from web service using SPARQL requests. In the case study, the problem entity is a task of multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint. Ontology matching results obtained using Wiktionary were compared with results based on Google Translate API.

연구 동기 및 목표

영어 이외의 언어로 개발되는 온톨로지가 증가함에 따라 의미 웹에서 다국어 온톨로지 매칭 문제를 해결한다.
기존 번역 API의 한계를 극복하기 위해 넓은 언어 커버리지와 수동으로 캐럿된 번역을 갖춘 Wiktionary를 다국어 어휘 자원으로 탐색한다.
SPARQL를 통해 프로그래밍 방식으로 쿼리 가능한 RDF 접근 형식으로 Wiktionary 데이터를 변환하는 파이프라인을 개발한다.
실세계 온톨로지 매칭 시나리오에서 표준 API(Google Translate)와 비교해 Wiktionary 유래 번역의 효과성을 평가한다.

제안 방법

Wiktionary 페이지에서 정의, 번역, 동의어 등의 구조화된 어휘 데이터를 기계로 읽을 수 있는 형식으로 추출하기 위한 파서를 구축한다.
추출된 데이터를 관계형 데이터베이스에 저장한 후, D2R 서버를 사용해 이를 SPARQL 엔드포인트를 통해 접근 가능한 RDF 스토어로 노출시킨다.
Wiktionary RDF 스토어에서 다국어 용어 매핑 및 의미 관계를 검색하기 위한 SPARQL 기반 쿼리 메커니즘을 설계한다.
수집된 번역을 온톨로지 매칭 파이프라인에 통합하여 다국어 온톨로지 간 개념 정렬을 수행한다.
동일한 실험 조건에서 Google Translate API를 통해 확보한 결과와 비교해 매칭 결과를 평가한다.
다국어 온톨로지 정렬 사례 연구를 바탕으로 정밀도, 재현율, F1 등의 표준 지표를 사용해 성능을 평가한다.

실험 결과

연구 질문

RQ1SPARQL 엔드포인트를 통해 액세스 가능한 Wiktionary 데이터는 온톨로지 매칭에서 다국어 용어 매핑의 신뢰할 수 있는 자료로 기능할 수 있는가?
RQ2Wiktionary 번역을 사용한 온톨로지 매칭의 품질은 Google Translate API를 사용한 결과와 비교해 어떻게 다른가?
RQ3커뮤니티가 캐럿한 다국어 사전인 Wiktionary를 사용할 경우 온톨로지 정렬의 정확도와 커버리지에 어떤 영향을 미치는가?
RQ4SPARQL를 통해 Wiktionary 데이터에 액세스할 수 있다면, 다국어 온톨로지 매칭의 확장성과 언어 다양성은 어느 정도 향상될 수 있는가?
RQ5온톨로지 매칭의 맥락에서 상용 번역 서비스와 비교해 Wiktionary 기반 번역의 한계는 무엇인가?

주요 결과

Wiktionary 기반 접근 방식은 평가된 사례 연구에서 Google Translate API와 비교해 경쟁 가능한 매칭 성능을 달성하였으며, F1 점수도 유사한 수준을 보였다.
특히 흔하지 않은 언어 조합에 대해 Google Translate API보다 넓은 다국어 커버리지를 제공하였다.
SPARQL를 통해 Wiktionary 데이터에 접근함으로써 여러 언어 간 어휘 정보에 효율적이고 프로그래밍 가능한 액세스가 가능했다.
특허 번역 서비스에 의존하지 않고도 대규모 다국어 온톨로지 매칭에 실현 가능성을 입증하였다.
일부 언어 조합에서는 Google Translate가 약간 더 높은 정밀도를 보였지만, 드문 또는 도메인 특화 용어에 대해서는 Wiktionary가 재현율에서 슈퍼어리어를 기록하였다.
온톨로지 매칭 파이프라인에 Wiktionary 데이터를 통합한 결과, 실시간 SPARQL 엔드포인트를 통한 쿼리가 가능할 정도로 강력하고 확장 가능한 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.