[论文解读] Three-dimensional Geospatial Interlinking with JedAI-spatial
JedAI-spatial 提供一个开源框架,沿三个维度组织地理空间互连算法(空间切片、预算感知、执行模式),并实现串行和并行方法,实现全面基准测试和灵活的管道。
Geospatial data constitutes a considerable part of (Semantic) Web data, but so far, its sources are inadequately interlinked in the Linked Open Data cloud. Geospatial Interlinking aims to cover this gap by associating geometries with topological relations like those of the Dimensionally Extended 9-Intersection Model. Due to its quadratic time complexity, various algorithms aim to carry out Geospatial Interlinking efficiently. We present JedAI-spatial, a novel, open-source system that organizes these algorithms according to three dimensions: (i) Space Tiling, which determines the approach that reduces the search space, (ii) Budget-awareness, which distinguishes interlinking algorithms into batch and progressive ones, and (iii) Execution mode, which discerns between serial algorithms, running on a single CPU-core, and parallel ones, running on top of Apache Spark. We analytically describe JedAI-spatial's architecture and capabilities and perform thorough experiments to provide interesting insights about the relative performance of its algorithms.
研究动机与目标
- 通过在 Linked Open Data 云中将几何对象与 DE-9IM 关系相关联,解决地理空间数据互连的需求。
- 提供一个常用、可扩展的开源平台,使最前沿的地理空间互连算法标准化并进行基准测试。
- 在串行和并行执行模式下,支持批量(与预算无关)和渐进式(预算感知)的互连。
- 将算法组织成三维分类法,以帮助在给定数据集和资源约束下选择最合适的方法。
提出的方法
- 引入互连算法的三维分类法:空间切片、预算感知和执行模式。
- 在一个通用的基于 Java 的框架中重新实现并改进串行地理空间互连算法。
- 将预算无关(批量)和预算感知(渐进)算法与各种加权和调度方案集成。
- 将并行互连算法适配并优化用于 Apache Spark,重点在于减少 Shuffle并提高可扩展性。
- 提供一个具有模型-视图-控制器(Model-View-Controller)设计的模块化架构,便于管道的扩展和基准测试。
实验结果
研究问题
- RQ1如何组织地理空间互连以支持多样的数据集和资源约束?
- RQ2在地理空间互连中,预算感知与预算无关算法的性能影响是什么?
- RQ3不同的空间切片策略(网格、树、分区)如何影响过滤与验证效率?
- RQ4串行与并行(Spark)执行对大型地理空间数据集的可扩展性有何影响?
- RQ5JedAI-spatial 能否作为一个库,在各应用中统一和优化最先进的互连方法?
主要发现
- JedAI-spatial 将最先进的互连方法组织成一个新颖的三维分类法,有助于算法选择。
- 该系统同时提供批量和渐进式互连能力,支持基于预算的逐步计算。
- 在 Apache Spark 上运行的并行管道旨在最小化 Shuffle 并扩展到大型数据集,同时保持可扩展性以便扩展。
- 各种预算感知算法采用调度和加权方案来优先考虑可能相关的对,并在预算约束下最大化渐进召回。
- 后端重新实现并优化了若干串行方法,包括基于网格、分区和树的方法,具有实用的内存和性能改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。