QUICK REVIEW

[論文レビュー] Multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint

Feiyu Lin, Andrew Krizhanovsky|arXiv (Cornell University)|Sep 4, 2011

Semantic Web and Ontologies参考文献 18被引用数 24

ひとこと要約

この論文では、Semantic Webにおける相互運用性の課題を克服するため、SPARQLエンドポイントを通じて公開されたWiktionaryデータを活用した多言語オントロジー照合手法を提案する。D2Rサーバーを介して機械可読形式のWiktionaryエントリを活用し、RDFクエリを可能にすることで、Google Translate APIと同等の照合精度を達成し、Wiktionaryが多言語用語リソースとしての有効性を示している。

ABSTRACT

Interoperability is a feature required by the Semantic Web. It is provided by the ontology matching methods and algorithms. But now ontologies are presented not only in English, but in other languages as well. It is important to use an automatic translation for obtaining correct matching pairs in multilingual ontology matching. The translation into many languages could be based on the Google Translate API, the Wiktionary database, etc. From the point of view of the balance of presence of many languages, of manually crafted translations, of a huge size of a dictionary, the most promising resource is the Wiktionary. It is a collaborative project working on the same principles as the Wikipedia. The parser of the Wiktionary was developed and the machine-readable dictionary was designed. The data of the machine-readable Wiktionary are stored in a relational database, but with the help of D2R server the database is presented as an RDF store. Thus, it is possible to get lexicographic information (definitions, translations, synonyms) from web service using SPARQL requests. In the case study, the problem entity is a task of multilingual ontology matching based on Wiktionary data accessible via SPARQL endpoint. Ontology matching results obtained using Wiktionary were compared with results based on Google Translate API.

研究の動機と目的

英語以外の言語で開発されるオントロジーが増加する中、Semantic Webにおける多言語オントロジー照合の課題に対処すること。
既存の翻訳APIの制限を克服するため、広範な言語カバー範囲と手作業で整備された翻訳を備えた多言語用語リソースとしてのWiktionaryの可能性を検討すること。
SPARQLによるプログラム可能なクエリが可能なRDF形式に変換可能なWiktionaryデータのパイプラインを構築すること。
実世界のオントロジー照合シナリオにおいて、標準API（Google Translate）と比較して、Wiktionaryから得た翻訳の有効性を評価すること。

提案手法

Wiktionaryページから構造化された語彙的データ（定義、翻訳、類義語）を抽出するパーサーを構築し、機械可読形式に変換すること。
抽出したデータをリレーショナルデータベースに格納し、D2Rサーバーを用いてSPARQLエンドポイントからアクセス可能なRDFストアとして公開すること。
Wiktionary RDFストアから多言語語句マッピングおよび意味的関係を取得するSPARQLベースのクエリメカニズムを設計すること。
取得した翻訳をオントロジー照合パイプラインに統合し、多言語オントロジー間の概念を一致させること。
同一の実験条件下で、Wiktionaryデータを用いた照合結果とGoogle Translate APIで得た結果を比較すること。
多言語オントロジー統合の事例研究において、標準指標（適合率、再現率、F1スコア）を用いて性能を評価すること。

実験結果

リサーチクエスチョン

RQ1SPARQLエンドポイントを介してアクセス可能なWiktionaryデータは、オントロジー照合における多言語語句マッピングの信頼できるソースとして機能するか？
RQ2Wiktionaryの翻訳を用いたオントロジー照合の品質は、Google Translate APIを用いた場合と比べてどのように異なるか？
RQ3コミュニティが整備した多言語辞書、たとえばWiktionaryのようなリソースを用いることで、オントロジー統合の正確性とカバー範囲にどのような影響を与えるか？
RQ4WiktionaryデータへのSPARQLによるアクセスを活用することで、多言語オントロジー照合におけるスケーラビリティと言語多様性はどの程度向上するか？
RQ5オントロジー照合の文脈において、商用翻訳サービスと比較した場合、Wiktionaryベースの翻訳にはどのような限界があるか？

主な発見

Wiktionaryを活用したアプローチは、評価事例においてGoogle Translate APIと同等の照合パフォーマンスを達成し、F1スコアも同程度に近い水準に到達した。
Google Translate APIに比べ、特にめったに使われない言語ペアにおいて、Wiktionaryはより広範な多言語カバー範囲を提供した。
SPARQLを用いたWiktionaryデータへのクエリアクセスにより、複数言語にわたる語彙的情報への効率的かつプログラム可能なアクセスが可能になった。
商用翻訳サービスに依存せずに、大規模かつ多言語のオントロジー照合が実現可能であることが示された。
一部の言語ペアではGoogle Translateがわずかに高い適合率を示したが、希少語やドメイン固有語についてはWiktionaryが再現率で優れていた。
オントロジー照合パイプラインへのWiktionaryデータ統合は、信頼性が高くスケーラブルであり、SPARQLエンドポイントを介したリアルタイムクエリをサポートした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。