QUICK REVIEW
[论文解读] The CTU Prague Relational Learning Repository
Jan Motl, Oliver Schulte|arXiv (Cornell University)|Nov 10, 2015
Bioinformatics and Genomic Networks参考文献 1被引用 30
一句话总结
CTU 布拉格关系学习数据集仓库(PRLR)在 MySQL 服务器上托管了 50 个公开可访问的多关系型 SQL 数据库,以支持机器学习研究。该仓库提供标准化元数据——包括表数量、行数和列数统计、外键结构以及目标属性——以实现关系学习中的可复现基准测试,并支持将格式转换为 Weka、RapidMiner 和 Alchemy 等工具。
ABSTRACT
The aim of the Prague Relational Learning Repository is to support machine learning research with multi-relational data. The repository currently contains 148 SQL databases hosted on a public MySQL server located at https://relational.fel.cvut.cz. The server is provided by the Czech Technical University (CTU). A searchable meta-database provides metadata (e.g., the number of tables in the database, the number of rows and columns in the tables, the number of self-relationships).
研究动机与目标
- 解决多关系机器学习缺乏共享、标准化基准数据集的问题。
- 通过提供真实和合成的关系型数据库,支持统计关系学习、多关系数据挖掘和归纳逻辑编程的研究。
- 通过统一的基于 SQL 的数据格式,促进机器学习与数据库研究社区之间的跨领域合作。
- 通过提供关于模式复杂性、数据规模和目标任务定义的结构化元数据,实现可复现的实验。
- 通过提供免费、只读访问的多样化、生产质量的关系型数据集,降低研究人员的入门门槛。
提出的方法
- 在 relational.fit.cvut.cz 公开托管 50 个关系型数据库,供研究人员以只读方式访问 MySQL 服务器。
- 以标准 SQL 格式存储数据集,确保与 R、Python、Weka、RapidMiner 和 ClowdFlows 等工具的广泛兼容性。
- 实施名为 'meta' 的元数据库模式,捕获每个数据集的详细元数据,包括表数量、行数和列数统计以及外键约束。
- 自动提取并存储元数据,如空值数量、数值型、字符串型、日期型和大对象(LOB)列的数量,以及主键/复合主键统计信息。
- 提供格式转换脚本,将 MySQL 数据转换为关系学习工具所用格式,包括 WILL 和 Alchemy 的 .db 格式。
- 通过上传 MySQL 转储文件或提供只读访问共享的方式支持数据集贡献,并提供网页表单用于提交,以及公开的联系方式。
实验结果
研究问题
- RQ1一个共享的、公开可访问的多关系型数据集仓库在多大程度上能提升关系机器学习研究的可复现性并推动研究进展?
- RQ2在多样化数据集中,哪些元数据特征对选择或评估关系学习算法最具信息量?
- RQ3标准 SQL 数据库在多大程度上可作为通用数据格式,弥合机器学习与数据库研究社区之间的鸿沟?
- RQ4关系模式的结构特性——如外键复杂性、环的存在性或复合主键——如何影响关系学习算法的性能?
- RQ5一个集中化的、包含关系型数据集元数据的元数据库在多大程度上能支持关系学习方法的系统性基准测试与对比分析?
主要发现
- 该仓库托管了 50 个关系型数据库,包括真实世界数据集(如 IMDb、MovieLens、Lahman)和合成数据集(如 AdventureWorks、Northwind),涵盖多样的模式复杂性和数据类型。
- 元数据库中的元数据包含详细统计信息,如行数(Employee 数据库最多达 280 万行)、表数(MooneyFamily 数据库最多 72 张表)和数据大小(CCS 数据库最大达 658.4 MB)。
- 元数据库捕获了结构化元数据,如 Dunur 中的 20 个自引用表、LegalActs 数据库中的 564,268 行数据,以及 Mesh 数据库中的 32 张表。
- 该仓库支持分类和回归任务,50 个数据集中有 49 个定义了目标属性,包括 14 个具有类别标签的数据集(如 Pima、Hepatitis)和 10 个具有回归目标的数据集(如 BasketballMen、CCS)。
- 元数据库包含外键结构信息,如 AdventureWorks 中有 71 张表,Hockey 数据库中有 23 张表,且 100% 的数据库均至少包含一个外键约束。
- 该仓库支持格式互操作性,提供转换脚本,可将 MySQL 数据转换为 Alchemy、Aleph 等关系学习工具所用格式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。