QUICK REVIEW

[論文レビュー] NELL2RDF: Reading the Web, and Publishing it as Linked Data

José M. Giménez‐García, Maísa Duarte|arXiv (Cornell University)|Apr 16, 2018

Semantic Web and Ontologies被引用数 1

ひとこと要約

本論文は、NELLのウェブ抽出知識とその豊富な内部プロヴァンスメタデータを、5つの異なる再帰的モデルを用いて標準化され、自己記述的なRDFデータセットに変換するNELL2RDFというシステムを提示する。主な貢献は、信頼スコアと完全な履歴を併せ持つ、165GBを超える構造的でリンクされたデータを公開したことであり、これはリンクドデータクラウドにおいて最も包括的なプロヴァンス豊富なデータセットの一つである。

ABSTRACT

NELL is a system that continuously reads the Web to extract knowledge in form of entities and relations between them. It has been running since January 2010 and extracted over 50,000,000 candidate statements. NELL's generated data comprises all the candidate statements together with detailed information about how it was generated. This information includes how each component of the system contributed to the extraction of the statement, as well as when that happened and how confident the system is in the veracity of the statement. However, the data is only available in an ad hoc CSV format that makes it difficult to exploit out of the context of NELL. In order to make it more usable for other communities, we adopt Linked Data principles to publish a more standardized, self-describing dataset with rich provenance metadata.

研究の動機と目的

NELLのエコシステム外でも利用可能な、NELLの広大な知識ベースと詳細な内部メタデータを提供すること。
NELLのネイティブなCSV形式の制限を解消し、相互運用性と再利用性を向上させること。
NELLのデータとメタデータを、標準的なRDF規格を用いて自己記述的かつ機械処理可能なリンクドデータとして公開すること。
複数のメタデータ表現モデルを備えた大規模で現実世界のデータセットを提供することで、将来のプロヴァンスモデリングに関する研究を支援すること。
NELLの知識を意味的推論および信頼性に配慮したクエリシステムに統合することを支援すること。

提案手法

RDF再帰、N-アリ関係、名前付きグラフ、シングルトンプロパティ、NdFluentsの5つの異なる再帰的モデルを用いて、NELLの候補的信念と促進的信念をRDFに変換する。
各メタデータソースごとにドメイン固有のオントロジーを用いて、プロヴァンスメタデータ（コンponentの寄与、信頼スコア、タイムスタンプ、ルール使用状況など）をモデル化する。
CML、CPL、LE、MBL、スプレッドシートの編集など、NELLの内部メタデータ（例：）を、標準化されたプロパティとドメインにマッピングしてRDF三元組に変換する。
VoIDとDCAT語彙を用いて、データセットの構造、サイズ、配布方法を記述する。
複数のダンプ形式でデータセットを公開し、将来的にはSPARQLエンドポイントと参照可能URIを提供する計画である。
各信念を関連するメタデータを持つ第一級リソースとして表現する再帰的技術を適用し、細かく粒度の細かいプロヴァンス追跡を可能にする。

実験結果

リサーチクエスチョン

RQ1NELLの膨大で部分的に構造化された知識ベースとその内部メタデータを、効果的に標準化され、機械処理可能なRDFに変換する方法は何か？
RQ2RDF再帰、N-アリ関係、名前付きグラフ、シングルトンプロパティ、NdFluentsの5つの再帰的モデルのうち、どれがNELLの信念の完全なプロヴァンスを最もよく保持・露出するか？
RQ3候補的信念と促進的信念の両方を含めることによる、最終的なRDFデータセットのサイズと表現力への影響は何か？
RQ4信頼スコアとコンponentレベルのプロヴァンスを、信頼性に配慮した推論を支援する形で意味的にモデル化・公開する方法は何か？
RQ5このデータセットは、現実世界の大規模知識グラフにおけるプロヴァンスモデリング技術の評価に、堅実なテストベッドとして機能できるか？

主な発見

NELL2RDFデータセットには165GBを超えるRDFデータが含まれており、すべてのモデルを合わせると1,480億個の三元組が存在し、メタデータを含めると8,270億個の三元組に達する。
データセットには360万件の促進的信念と5,000万件の候補的ステートメントが含まれており、利用可能な知識の範囲が著しく拡大されている。
5つの異なる再帰的モデルの使用により、現実世界の環境におけるプロヴァンスモデリングアプローチの比較的評価が可能になった。
メタデータ豊富な構造により、コンponentの寄与、信頼スコア、ルール使用状況など、信念のプロヴァンスを細かく追跡できる。
VoIDとDCATメタデータを併用してデータセットを公開しており、リンクドデータエコシステム内での発見可能性と相互運用性が向上している。
著者らは、将来的にSPARQLエンドポイントを公開し、参照可能URIを提供する計画であり、プログラムによるアクセスと統合の利便性が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。