[논문 리뷰] BoostClean: Automated Error Detection and Repair for Machine Learning
BoostClean은 학습 및 테스트 데이터의 도메인 값 위반을 자동으로 감지하고 부스팅을 사용하여 탐지기 및 수리의 앙상블을 선택하여 다운스트림 모델 정확도를 향상시킵니다. 최대 9% 절대적 개선 및 상당한 속도 향상을 달성합니다.
Predictive models based on machine learning can be highly sensitive to data error. Training data are often combined with a variety of different sources, each susceptible to different types of inconsistencies, and new data streams during prediction time, the model may encounter previously unseen inconsistencies. An important class of such inconsistencies is domain value violations that occur when an attribute value is outside of an allowed domain. We explore automatically detecting and repairing such violations by leveraging the often available clean test labels to determine whether a given detection and repair combination will improve model accuracy. We present BoostClean which automatically selects an ensemble of error detection and repair combinations using statistical boosting. BoostClean selects this ensemble from an extensible library that is pre-populated general detection functions, including a novel detector based on the Word2Vec deep learning model, which detects errors across a diverse set of domains. Our evaluation on a collection of 12 datasets from Kaggle, the UCI repository, real-world data analyses, and production datasets that show that Boost- Clean can increase absolute prediction accuracy by up to 9% over the best non-ensembled alternatives. Our optimizations including parallelism, materialization, and indexing techniques show a 22.2x end-to-end speedup on a 16-core machine.
연구 동기 및 목표
- ML 파이프라인의 만연한 더러운 데이터에 도메인 값 위반에 집중하여 값이 허용 도메인 밖에 있을 때 발생하는 문제를 해결한다.
- Word2Vec 기반 탐지기를 포함한 탐지기 및 특징 추출기 라이브러리를 사용하여 자동으로 더러운 레코드를 탐지한다.
- 언제나 unseen test data에서 예측 정확도를 극대화하기 위해 부스팅으로 수집된 수리의 앙상블을 자동으로 선택한다.
- 다양한 데이터세트에서 BoostClean를 평가하여 정확도 향상과 런타임 개선을 정량화한다.
- 도메인별 커스터마이즈를 허용하면서 사전 채워진 탐지기 및 수리 라이브러리로 확장 가능한 프레임워크를 제공한다.
제안 방법
- 탐지기를 후보 더러운 레코드를 표시하는 술어로 표현하고 조건부 수리 규칙과의 매핑을 수행한다.
- 가중치 데이터에서 테스트 정확도를 극대화하는 일련의 조건부 수리를 선택하기 위해 부스팅 기반 절차를 사용한다.
- 학습하기 전에 수리를 적용하여 특징 생성을 수행하고 cleaned data로 학습된 분류기의 부스팅 앙상블을 사용하여 정리로 간주한다.
- IsoDetect를 포함하여 특징화(featurizations)를 학습된 임계값을 통해 Isolation Forests로 탐지기 생성기로 전환한다.
- 도메인 전반의 다속성 오류 패턴을 포착하기 위한 Word2Vec 기반 탐지기를 포함한다.
- 탐지, 수리, 학습 및 배포 구성 요소를 갖춘 엔드-투-엔드 워크플로우를 제공한다.
실험 결과
연구 질문
- RQ1BoostClean이 보지 못한 unseen 테스트 데이터에서 분류기 정확도에 영향을 주는 도메인 값 위반을 신뢰성 있게 식별하고 수리할 수 있는가?
- RQ2비앙상블 베이스라인과 비교했을 때 탐지기 및 수리의 앙상블을 부스팅함으로써 얼마나 많은 예측 성능 향상을 달성할 수 있는가?
- RQ3멀티코어 하드웨어에서 BoostClean의 런타임 성능 및 확장성은 어떠한가?
- RQ4Word2Vec 기반 탐지기와 IsoDetect 라이브러리가 다양한 설정에서 얼마나 효과적인가?
- RQ5사전 채워진 탐지기/수리 라이브러리가 데이터세트 간에 일반화될 수 있는 정도는?
주요 결과
- BoostClean은 unseen test data에서 최상의 비앙상블 대안 대비 절대 예측 정확도를 최대 9%까지 증가시킬 수 있다.
- 병렬성, 물리적화(materialization), 인덱싱 등의 최적화가 16코어 머신에서 엔드-투-엔드 속도를 22.2배 향상시킨다.
- 확장 가능한 탐지기/수리 라이브러리와 부스팅 기반 선택이 조건부 수리를 효과적으로 식별하고 적용한다.
- Word2Vec 기반 탐지기는 다양한 도메인에서 오류를 감지하고 여러 데이터세트에서 수작업으로 작성된 규칙에 비해 높은 탐지 커버리지를 달성한다.
- IsoDetect는 Isolation Forests를 사용하여 특징화를 탐지기 생성기로 효율적으로 전환하고, 확장 가능한 이상치 기반 탐지 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.