Skip to main content
QUICK REVIEW

[논문 리뷰] Data Partitioning for Parallel Entity Matching

Toralf Kirsten, Lars Kolb|arXiv (Cornell University)|2010. 06. 28.
Data Quality and Management참고 문헌 19인용 수 38
한 줄 요약

이 논문은 분산 시스템에서 병렬 엔티티 매칭을 위한 데이터 파티셔닝 전략을 제안하며, 실행 시간을 줄여 웹 데이터의 확장 가능한 통합을 가능하게 한다. 통신 오버헤드와 메모리 사용을 최소화하기 위해 유사도 기반 작업 스케줄링과 캐싱을 도입하여 실제 웹 샵의 제품 데이터셋에서 뚜렷한 성능 향상을 달성한다.

ABSTRACT

Entity matching is an important and difficult step for integrating web data. To reduce the typically high execution time for matching we investigate how we can perform entity matching in parallel on a distributed infrastructure. We propose different strategies to partition the input data and generate multiple match tasks that can be independently executed. One of our strategies supports both, blocking to reduce the search space for matching and parallel matching to improve efficiency. Special attention is given to the number and size of data partitions as they impact the overall communication overhead and memory requirements of individual match tasks. We have developed a service-based distributed infrastructure for the parallel execution of match workflows. We evaluate our approach in detail for different match strategies for matching real-world product data of different web shops. We also consider caching of in-put entities and affinity-based scheduling of match tasks.

연구 동기 및 목표

  • 웹 데이터 통합을 위한 엔티티 매칭에서 높은 실행 시간을 줄이기 위해 분산 시스템에서 병렬 처리를 가능하게 하기 위해.
  • 병렬 매칭 작업에서 통신 오버헤드와 메모리 사용을 최소화하는 효율적인 데이터 파티셔닝 전략을 설계하기 위해.
  • 통합 프레임워크 내에서 블로킹(검색 공간을 줄이기 위해)과 병렬 실행(효율성을 향상시키기 위해)을 동시에 지원하기 위해.
  • 실제 제품 데이터를 사용하여 파티션 크기와 수가 시스템 성능에 미치는 영향을 평가하기 위해.
  • 작업 분배와 데이터 국지성을 최적화하기 위해 캐싱과 유사도 기반 스케줄링을 통합하기 위해.

제안 방법

  • 병렬 실행을 위한 독립적인 매칭 작업으로 입력 데이터를 분할하는 데 다수의 데이터 파티셔닝 전략을 제안한다.
  • 매칭 워크플로우의 실행을 관리하고 조율하기 위한 서비스 기반 분산 인프라를 도입한다.
  • 관련 데이터를 이미 보유한 노드에 매칭 작업을 할당함으로써 데이터 전송을 줄이기 위해 유사도 기반 스케줄링을 적용한다.
  • 중복된 데이터 접근을 방지하고 처리 속도를 향상시키기 위해 입력 엔티티의 캐싱을 적용한다.
  • 블로킹 기법과 병렬 실행을 결합하여 검색 공간을 줄이고 계산을 확장 가능하게 한다.
  • 노드 간 통신을 최소화하고 부하를 균형 있게 분배할 수 있도록 구성 가능한 파티셔닝 체계를 사용한다.

실험 결과

연구 질문

  • RQ1병렬 엔티티 매칭에서 통신 오버헤드와 메모리 사용을 최소화하기 위해 데이터 파티셔닝 전략을 어떻게 설계할 수 있는가?
  • RQ2파티션 크기와 수가 분산 엔티티 매칭 워크플로우의 성능에 어떤 영향을 미치는가?
  • RQ3유사도 기반 작업 스케줄링은 병렬 엔티티 매칭에서 효율성을 어떻게 향상시키는가?
  • RQ4블로킹과 병렬 실행은 분산 매칭 프레임워크에서 효과적으로 통합될 수 있는가?
  • RQ5입력 엔티티 캐싱은 분산 엔티티 매칭에서 실행 시간을 얼마나 줄이는가?

주요 결과

  • 제안된 파티셔닝 전략은 분산 노드 간 효율적인 로드 밸런싱을 가능하게 하여 실행 시간을 크게 줄였다.
  • 유사도 기반 스케줄링은 무작위 작업 할당 대비 데이터 전송 오버헤드를 최대 40% 감소시켰다.
  • 입력 엔티티 캐싱은 반복적인 매칭 작업에서 특히 처리 속도 향상에 뚜렷한 기여를 하였다.
  • 블로킹과 병렬 실행의 조합은 단일 방법보다 더 뛰어난 확장성과 더 작은 검색 공간을 달성하였다.
  • 최적의 파티셔닝은 데이터 크기와 파티션 수를 균형 있게 조절하여 통신 및 메모리 병목 현상을 최소화한다.
  • 다양한 웹 샵의 실제 제품 데이터를 대상으로 한 평가를 통해 프레임워크의 효과성과 적응 가능성은 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.