Skip to main content
QUICK REVIEW

[論文レビュー] The CTU Prague Relational Learning Repository

Jan Motl, Oliver Schulte|arXiv (Cornell University)|Nov 10, 2015
Bioinformatics and Genomic Networks参考文献 1被引用数 30
ひとこと要約

CTUプラハの関係学習リポジトリ(PRLR)は、機械学習研究を支援するため、MySQLサーバーにホストされた50の公開可能な多関係的SQLデータベースを提供する。標準化されたメタデータ(テーブル数、行・列統計、外部キー構造、ターゲット属性など)を備えており、関係学習における再現可能で標準化されたベンチマーク評価を可能にし、Weka、RapidMiner、Alchemyなどのツールへのフォーマット変換もサポートする。

ABSTRACT

The aim of the Prague Relational Learning Repository is to support machine learning research with multi-relational data. The repository currently contains 148 SQL databases hosted on a public MySQL server located at https://relational.fel.cvut.cz. The server is provided by the Czech Technical University (CTU). A searchable meta-database provides metadata (e.g., the number of tables in the database, the number of rows and columns in the tables, the number of self-relationships).

研究の動機と目的

  • 多関係的機械学習のための共有で標準化されたベンチマークデータセットの不足に対処すること。
  • 本物および合成の関係データベースを提供することで、統計的関係学習、多関係的データマイニング、帰納的論理プログラミングの分野における研究を支援すること。
  • 共通のSQLベースのデータフォーマットを通じて、機械学習研究者とデータベース研究者との間の共同研究を促進すること。
  • スキーマの複雑さ、データサイズ、ターゲットタスク定義に関する構造化されたメタデータを提供することで、再現可能な実験を可能にすること。
  • 多様で生産品質の高い関係データセットへの無料で読み取り専用アクセスを提供することで、研究者の参画障壁を低減すること。

提案手法

  • 研究者向けに読み取り専用アクセスを提供する、relational.fit.cvut.cz にホストされた公開MySQLサーバー上に50の関係データベースをホスティングすること。
  • R、Python、Weka、RapidMiner、ClowdFlowsなど、幅広いツールとの互換性を確保するため、標準SQLフォーマットでデータセットを保存すること。
  • 各データセットに関する詳細なメタデータ(テーブル数、行・列統計、外部キー制約など)をキャプチャするためのメタデータベーススキーマ「meta」を実装すること。
  • NULL値数、数値・文字列・日付・LOBカラム数、主キー/複合キー統計など、自動抽出・保存されたメタデータを提供すること。
  • MySQLデータをAlchemyの.dbフォーマットやWILLフォーマットを含む、関係学習ツールで使用されるフォーマットに変換するスクリプトを提供すること。
  • MySQLダンプアップロードまたは読み取り専用共有によるデータセットの寄付を可能にし、Webフォームによる提出と公開の連絡先チャネルを提供すること。

実験結果

リサーチクエスチョン

  • RQ1共有で公開可能な多関係的データセットリポジトリは、関係学習研究における再現性向上と研究進展をどのように促進するか?
  • RQ2多様なデータセットを横断して関係学習アルゴリズムの選定や評価に最も有用なメタデータの特徴は何か?
  • RQ3標準SQLデータベースは、機械学習研究者とデータベース研究者とのコミュニティを橋渡しする共通のデータフォーマットとして、どの程度有効に機能するか?
  • RQ4外部キーの複雑さ、ループの有無、複合キーの存在といった、関係スキーマの構造的特性が、関係学習アルゴリズムの性能にどのように影響を与えるか?
  • RQ5関係データセットのメタデータを集約した中央集権的なメタデータベースは、関係学習手法の体系的ベンチマーク評価と比較分析を可能にするか?

主な発見

  • リポジトリは、実世界のデータセット(例:IMDb、MovieLens、Lahman)と合成データセット(例:AdventureWorks、Northwind)を含む50の関係データベースをホスティングしており、多様なスキーマの複雑さとデータ型を有する。
  • メタデータベースには、行数(Employeeデータベースで最大280万行)、テーブル数(MooneyFamilyで最大72テーブル)、サイズ(CCSデータベースで最大658.4MB)といった詳細な統計情報が含まれる。
  • メタデータベースは、Dunurで20の自己参照テーブル、LegalActsで564,268行、Meshで32テーブルといった構造的メタデータをキャプチャしている。
  • リポジトリは分類および回帰タスクをサポートしており、50のデータセットのうち49でターゲット属性が定義されており、14のデータセットで分類ラベル(例:Pima、Hepatitis)、10のデータセットで回帰ターゲット(例:BasketballMen、CCS)が含まれる。
  • メタデータベースには、外部キー構造に関する情報が含まれており、AdventureWorksで71テーブル、Hockeyデータベースで23テーブルがあり、全データベースの100%で少なくとも1つの外部キー制約が存在する。
  • リポジトリはフォーマット相互運用性を支援しており、Alchemy、Aleph、その他の関係学習ツールで使用されるフォーマットにMySQLデータを変換するスクリプトが利用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。