[논문 리뷰] The Effects of Data Quality on Machine Learning Performance on Tabular Data
세 가지 오염 시나리오에서 분류, 회귀, 클러스터링에 걸친 15개 ML 알고리즘의 성능에 여섯 가지 데이터 품질 차원이 미치는 영향을 경험적으로 분석한다.
Modern artificial intelligence (AI) applications require large quantities of training and test data. This need creates critical challenges not only concerning the availability of such data, but also regarding its quality. For example, incomplete, erroneous, or inappropriate training data can lead to unreliable models that produce ultimately poor decisions. Trustworthy AI applications require high-quality training and test data along many quality dimensions, such as accuracy, completeness, and consistency. We explore empirically the relationship between six data quality dimensions and the performance of 19 popular machine learning algorithms covering the tasks of classification, regression, and clustering, with the goal of explaining their performance in terms of data quality. Our experiments distinguish three scenarios based on the AI pipeline steps that were fed with polluted data: polluted training data, test data, or both. We conclude the paper with an extensive discussion of our observations.
연구 동기 및 목표
- 데이터 품질이 ML 성능을 제한하는지 살펴봄으로써 데이터 중심 AI를 고무한다.
- 여섯 가지 데이터 품질 차원을 정의하고 체계적인 오염 방법을 제시한다.
- 오염된 데이터 하에서 분류, 회귀, 클러스터링에 걸쳐 15개 ML 알고리즘을 평가한다.
- 학습 데이터, 테스트 데이터 또는 둘 다 저하된 품질인 시나리오를 비교한다.
- 데이터 과학자들에게 실용적 통찰과 향후 연구 방향을 제시한다.
제안 방법
- 여섯 가지 데이터 품질 차원을 정의: Consistent Representation, Completeness, Feature Accuracy, Target Accuracy, Uniqueness, 및 Target Class Balance.
- 차원별로 제어된 데이터 품질 저하를 주입하는 매개변수화된 오염 도구를 개발한다.
- 세 가지 실험 시나리오를 만들기 위해 학습 데이터, 테스트 데이터 또는 둘 다에 오염을 적용한다.
- 분류, 회귀, 클러스터링 과제에 걸쳐 15개의 ML 알고리즘을 평가한다.
- 재현성을 위해 고정된 난수 시드를 가진 합성 데이터와 실제 데이터 세트를 사용한다.
- 데이터 품질과 모델 성능 간의 관찰된 관계를 보고하고 논의한다.
실험 결과
연구 질문
- RQ1여섯 가지 데이터 품질 차원이 분류, 회귀, 클러스터링 과제에서 ML 성능에 어떤 영향을 미치는가?
- RQ2다양한 오염 시나리오에서 학습 데이터와 서비스 데이터의 품질 차이가 모델 결과에 어떻게 영향을 미치는가?
- RQ3ML 파이프라인에서 데이터 품질 관리에 관해 데이터 과학자들이 얻을 수 있는 실용적 시사점은 무엇인가?
주요 결과
- 학습 데이터와 테스트 데이터 모두의 데이터 품질이 세 가지 과제 유형 모두에서 ML 성능에 상당한 영향을 미친다.
- 같은 데이터 품질 저하에도 서로 다른 ML 알고리즘이 서로 다르게 반응하여 과제 및 모델 의존적 민감도를 보인다.
- 여섯 차원에 걸친 체계적 오염은 성능 저하에 뚜렷한 패턴을 드러내며, 일부 차원(예: Target Accuracy)이 다른 차원보다 더 영향력이 있는 경우가 많다.
- 세 가지 오염 시나리오(오염된 학습 데이터, 오염된 테스트 데이터, 또는 둘 다)는 모델 정확도와 강건성에 서로 다른 효과를 낳는다.
- 본 연구는 실용적인 가이드라인을 제공하고 추가 품질 차원과 데이터 세트를 활용한 데이터 중심 AI 연구 확장의 방향을 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.