QUICK REVIEW

[論文レビュー] RDF2Rules: Learning Rules from RDF Knowledge Bases by Mining Frequent Predicate Cycles

Zhichun Wang, Juanzi Li|arXiv (Cornell University)|Dec 24, 2015

Natural Language Processing Techniques参考文献 24被引用数 31

ひとこと要約

RDF2Rulesは、RDF知識ベースにおける新しいルール学習アプローチであり、頻度の高い述語サイクル（FPC）を抽出することで、効率的な推論ルールの生成を実現する。エンティティタイプ情報とオープンワールド仮説下での新しい信頼度測定法を活用することで、YAGO2 や DBpedia といった大規模なKBにおいて、AMIE+ よりも高い正確性と高速な性能を達成する。

ABSTRACT

Recently, several large-scale RDF knowledge bases have been built and applied in many knowledge-based applications. To further increase the number of facts in RDF knowledge bases, logic rules can be used to predict new facts based on the existing ones. Therefore, how to automatically learn reliable rules from large-scale knowledge bases becomes increasingly important. In this paper, we propose a novel rule learning approach named RDF2Rules for RDF knowledge bases. RDF2Rules first mines frequent predicate cycles (FPCs), a kind of interesting frequent patterns in knowledge bases, and then generates rules from the mined FPCs. Because each FPC can produce multiple rules, and effective pruning strategy is used in the process of mining FPCs, RDF2Rules works very efficiently. Another advantage of RDF2Rules is that it uses the entity type information when generates and evaluates rules, which makes the learned rules more accurate. Experiments show that our approach outperforms the compared approach in terms of both efficiency and accuracy.

研究の動機と目的

大規模なRDF知識ベースから高品質な推論ルールを自動的に学習する課題に対処すること。
ルールごとのマイニングからパターンベースのFPCマイニングへの移行により、ルール学習の効率を向上させること。
ルール生成および評価の段階でエンティティタイプ情報を統合することで、ルールの正確性を向上させること。
オープンワールド仮説下でのルール評価に適した、より正確な信頼度測定法の開発。
マルチコアアーキテクチャ上でスケーラブルかつ並列実行可能なルール学習の実装。

提案手法

再発生する関係的パスを表すRDFグラフ内の新しい頻度パターンとしての頻度の高い述語サイクル（FPC）をマイニングする。
探索空間の削減とスケーラビリティの向上を図るための、効率的なFPCマイニングアルゴリズムとプルーニング戦略の適用。
各マイニングされたFPCから複数の推論ルールを生成し、自動的にエンティティタイプ制約を含める。
エンティティタイプ情報を組み込み、オープンワールド評価をサポートする新しい信頼度測定法の設計。
FPCマイニングとルール評価の高速化を図るための特殊な構造によるRDFデータのインデキシング。
マルチコアアーキテクチャ上でFPCマイニングプロセスを並列実行することで、パフォーマンス向上を実現。

実験結果

リサーチクエスチョン

RQ1大規模なRDF知識ベースから頻度の高い述語サイクルを効果的にマイニングし、ルール学習の基盤とすることは可能か？
RQ2エンティティタイプ情報の活用が、学習された推論ルールの正確性をどの程度向上させられるか？
RQ3エンティティタイプとオープンワールド仮説を考慮した新しい信頼度測定法は、より信頼性の高いルール評価を可能にするか？
RQ4FPCベースのルール学習は、AMIE+ などのルールごとのマイニング手法と比較して、速度と正確性の点でどの程度優れているか？
RQ5提案手法は、YAGO2 や DBpedia といった大規模で現実世界のRDF KBでも効率的にスケーリング可能か？

主な発見

YAGO2 および DBpedia で評価した結果、RDF2RulesはAMIE+ よりも効率性と正確性の両面で優れている。
ルール生成段階でのエンティティタイプ情報の活用は、学習されたルールの精度を顕著に向上させた。
提案された信頼度測定法は、AMIE+ で使用されるPCA信頼度よりも、特にオープンワールド環境下でより正確な信頼性推定を提供した。
FPCマイニングアルゴリズムは高いスケーラビリティを達成しており、並列実行をサポートしており、大規模なRDFデータセットの処理を高速化できた。
本手法は各FPCから複数のルールを生成するため、パフォーマンスに悪影響を及げることなく、ルールカバレッジを拡大できた。
実験により、比較手法に比べてRDF2Rulesはより信頼性の高い予測を生成し、偽陽性率が低かった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。