QUICK REVIEW

[논문 리뷰] AlphaClean: Automatic Generation of Data Cleaning Pipelines

Sanjay Krishnan, Eugene Wu|arXiv (Cornell University)|2019. 04. 26.

Data Quality and Management참고 문헌 44인용 수 34

한 줄 요약

AlphaClean은 데이터 정리 하이퍼파라미터 튜닝을 비동기적이며 수리 중심의 중간 표현을 활용한 생성-검색 파이프라인 최적화로 재구성합니다. 사용자가 정의한 품질 함수를 최대화하는 정리 파이프라인을 발견합니다.

ABSTRACT

The analyst effort in data cleaning is gradually shifting away from the design of hand-written scripts to building and tuning complex pipelines of automated data cleaning libraries. Hyper-parameter tuning for data cleaning is very different than hyper-parameter tuning for machine learning since the pipeline components and objective functions have structure that tuning algorithms can exploit. This paper proposes a framework, called AlphaClean, that rethinks parameter tuning for data cleaning pipelines. AlphaClean provides users with a rich library to define data quality measures with weighted sums of SQL aggregate queries. AlphaClean applies generate-then-search framework where each pipelined cleaning operator contributes candidate transformations to a shared pool. Asynchronously, in separate threads, a search algorithm sequences them into cleaning pipelines that maximize the user-defined quality measures. This architecture allows AlphaClean to apply a number of optimizations including incremental evaluation of the quality measures and learning dynamic pruning rules to reduce the search space. Our experiments on real and synthetic benchmarks suggest that AlphaClean finds solutions of up-to 9x higher quality than naively applying state-of-the-art parameter tuning methods, is significantly more robust to straggling data cleaning methods and redundancy in the data cleaning library, and can incorporate state-of-the-art cleaning systems such as HoloClean as cleaning operators.

연구 동기 및 목표

데이터 정리 파이프라인을 자동으로 생성하고 튜닝함으로써 애널리스트의 노력을 줄인다.
효율적이고 점진적인 품질 평가를 가능하게 하는 수리의 공유 중간 표현을 활용한다.
데이터에 대한 SQL 집계로 표현된 유연하고 사용자가 정의한 데이터 품질 목표를 허용한다.
HoloClean과 같은 외부 시스템을 포함하여 정리 연산자를 견고하게 앙상블하고 병렬화하여 정리 효과를 향상시킨다.

제안 방법

각 정리 연산자가 공유 풀에 후보 수리를 기여하는 생성-그다음-검색 프레임워크를 도입한다.
수리를 조건부 할당으로 표현하고 이를 조합하여 정리 파이프라인을 구성한다.
데이터 품질을 SQL 집계 쿼리의 가중합으로 정의하여 탐색을 안내하고 점진적 유지관리를 가능하게 한다.
프레임워크 특정 수리를 비동기적으로 병렬 스레드와 별도의 검색 스레드에서 실행하여 품질을 효율적으로 극대화한다.
점진적 품질 평가와 학습된 가지치기 규칙을 사용하여 탐색 공간을 줄이고 탐색을 관리한다.
후보 경로와 데이터 파티션 간의 병렬화를 수행하고 자원 균형 유지를 위한 back-pressure 메커니즘을 도입하여 자원을 균형 있게 사용한다.

실험 결과

연구 질문

RQ1수리의 구조화된 중간 표현을 사용하여 데이터 정리 파이프라인을 자동으로 생성하고 튜닝하는 방법은?
RQ2현실적인 데이터 워크로드 하에서 효율적이고 언제든 최적화가 가능한 정리 파이프라인의 품질 측정 지표와 아키텍처 설계는 무엇인가?
RQ3비동기적이고 생성-그다음-검색 아키텍처가 데이터 정리 설정에서 블랙박스 하이퍼파라미터 튜닝을 능가할 수 있는가?
RQ4가지치기 규칙과 점진적 유지관리가 데이터 정리 최적화의 확장성과 견고성을 어떻게 향상시킬 수 있는가?

주요 결과

AlphaClean은 순진한 최첨단 파라미터 튜닝 방법에 비해 최대 9배 높은 데이터 품질을 달성합니다.
프레임워크는 지연되는 정리 방법과 정리 라이브러리의 중복에 강건합니다.
HoloClean과 같은 외부 정리 시스템을 정리 연산자로 통합할 수 있습니다.
품질 측정의 점진적 평가와 학습된 가지치기 규칙은 탐색 공간을 상당히 감소시키고 성능을 향상시킵니다.
연산자와 데이터 파티션에 걸친 비동기적, 병렬화된 탐색은 확장 가능한 파이프라인 생성을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.