[论文解读] Multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint
本文提出了一种利用通过 SPARQL 端点公开的 Wiktionary 数据的多语言本体匹配方法,以克服语义网互操作性中的语言障碍。通过利用 D2R 服务器将机器可读的 Wiktionary 条目转换为 RDF 查询,该方法在匹配准确率方面与 Google Translate API 相当,证明了 Wiktionary 作为多语言词汇资源在本体对齐中的可行性。
Interoperability is a feature required by the Semantic Web. It is provided by the ontology matching methods and algorithms. But now ontologies are presented not only in English, but in other languages as well. It is important to use an automatic translation for obtaining correct matching pairs in multilingual ontology matching. The translation into many languages could be based on the Google Translate API, the Wiktionary database, etc. From the point of view of the balance of presence of many languages, of manually crafted translations, of a huge size of a dictionary, the most promising resource is the Wiktionary. It is a collaborative project working on the same principles as the Wikipedia. The parser of the Wiktionary was developed and the machine-readable dictionary was designed. The data of the machine-readable Wiktionary are stored in a relational database, but with the help of D2R server the database is presented as an RDF store. Thus, it is possible to get lexicographic information (definitions, translations, synonyms) from web service using SPARQL requests. In the case study, the problem entity is a task of multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint. Ontology matching results obtained using Wiktionary were compared with results based on Google Translate API.
研究动机与目标
- 解决语义网中多语言本体匹配的挑战,其中本体正越来越多地以英语以外的语言开发。
- 通过探索 Wiktionary 作为具有广泛语言覆盖和人工校对翻译的多语言词汇资源,克服现有翻译 API 的局限性。
- 开发一个将 Wiktionary 数据转换为可通过 SPARQL 查询的 RDF 可访问格式的管道。
- 在实际的本体匹配场景中,将 Wiktionary 衍生的翻译与标准 API(Google Translate)进行对比评估有效性。
提出的方法
- 开发了一个解析器,将 Wiktionary 页面中的结构化词汇数据(定义、翻译、同义词)提取为机器可读格式。
- 将提取的数据存储在关系型数据库中,然后使用 D2R 服务器将其暴露为可通过 SPARQL 端点访问的 RDF 存储。
- 设计了一种基于 SPARQL 的查询机制,从 Wiktionary RDF 存储中检索多语言术语映射和语义关系。
- 将检索到的翻译集成到本体匹配管道中,以对齐跨多语言本体的概念。
- 在相同实验条件下,将使用 Wiktionary 数据获得的匹配结果与使用 Google Translate API 获得的结果进行对比。
- 使用标准指标(精确率、召回率、F1)在涉及多语言本体对齐的案例研究中评估性能。
实验结果
研究问题
- RQ1通过 SPARQL 端点访问的 Wiktionary 数据能否作为本体匹配中多语言术语映射的可靠来源?
- RQ2使用 Wiktionary 翻译的本体匹配质量与使用 Google Translate API 的结果相比如何?
- RQ3使用社区维护的多语言词典(如 Wiktionary)对本体对齐的准确性和覆盖范围有何影响?
- RQ4SPARQL 对 Wiktionary 数据的访问在多语言本体匹配中能在多大程度上提升可扩展性和语言多样性?
- RQ5在本体匹配背景下,与商业翻译服务相比,基于 Wiktionary 的翻译存在哪些局限性?
主要发现
- 基于 Wiktionary 的方法在评估的案例研究中实现了具有竞争力的匹配性能,F1 分数接近 Google Translate API 的水平。
- Wiktionary 提供的多语言覆盖范围优于 Google Translate API,尤其是在较少见的语言对中。
- 使用 SPARQL 查询 Wiktionary 数据实现了对多种语言词汇信息的高效程序化访问。
- 该方法证明了在不依赖专有翻译服务的情况下,实现大规模多语言本体匹配的可行性。
- 尽管 Google Translate 在某些语言对中精确率略高,但 Wiktionary 在罕见或领域特定术语的召回率方面表现更优。
- 将 Wiktionary 数据集成到本体匹配管道中被证明是稳健且可扩展的,支持通过 SPARQL 端点进行实时查询。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。