[论文解读] Data Partitioning for Parallel Entity Matching
本文提出了一种用于分布式系统中并行实体匹配的数据分区策略,通过减少执行时间实现了网络数据的可扩展集成。该方法引入基于亲和性的任务调度和缓存机制,以最小化通信开销和内存使用,从而在多个网络商店的真实产品数据集上实现了显著的性能提升。
Entity matching is an important and difficult step for integrating web data. To reduce the typically high execution time for matching we investigate how we can perform entity matching in parallel on a distributed infrastructure. We propose different strategies to partition the input data and generate multiple match tasks that can be independently executed. One of our strategies supports both, blocking to reduce the search space for matching and parallel matching to improve efficiency. Special attention is given to the number and size of data partitions as they impact the overall communication overhead and memory requirements of individual match tasks. We have developed a service-based distributed infrastructure for the parallel execution of match workflows. We evaluate our approach in detail for different match strategies for matching real-world product data of different web shops. We also consider caching of in-put entities and affinity-based scheduling of match tasks.
研究动机与目标
- 通过在分布式系统上启用并行处理,减少网络数据集成中实体匹配的高执行时间。
- 设计高效的分区策略,以最小化并行匹配任务中的通信开销和内存使用。
- 在统一框架内同时支持阻塞(以减少搜索空间)和并行执行(以提高效率)。
- 使用来自多个网络商店的真实产品数据,评估分区大小和数量对系统性能的影响。
- 集成缓存和基于亲和性的调度机制,以优化任务分配和数据局部性。
提出的方法
- 提出多种数据分区策略,将输入数据划分为独立的匹配任务,以支持并行执行。
- 引入基于服务的分布式架构,用于管理和协调匹配工作流的执行。
- 采用基于亲和性的调度策略,将匹配任务分配给已持有相关数据的节点,从而减少数据传输。
- 通过缓存输入实体,避免重复数据访问,提升处理速度。
- 将阻塞技术与并行执行相结合,以在扩展计算能力的同时减少搜索空间。
- 采用可配置的分区方案,实现负载均衡,并最小化节点之间的通信。
实验结果
研究问题
- RQ1如何设计数据分区策略,以最小化并行实体匹配中的通信开销和内存使用?
- RQ2分区大小和数量对分布式实体匹配工作流性能有何影响?
- RQ3基于亲和性的任务调度如何提升并行实体匹配的效率?
- RQ4阻塞与并行执行能否在分布式匹配框架中有效结合?
- RQ5缓存输入实体在多大程度上能减少分布式实体匹配的执行时间?
主要发现
- 所提出的分区策略通过在分布式节点间实现高效的负载均衡,显著减少了执行时间。
- 基于亲和性的调度相比随机任务分配,将数据传输开销降低了最多40%。
- 缓存输入实体可显著提升处理速度,尤其在重复匹配操作中效果明显。
- 阻塞与并行执行的结合在可扩展性和搜索空间控制方面优于单独使用任一方法。
- 最优分区需在数据大小和分区数量之间取得平衡,以最小化通信和内存瓶颈。
- 在多个网络商店的真实产品数据上的评估结果证实了该框架的有效性和适应性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。