QUICK REVIEW

[논문 리뷰] Creating Unbiased Public Benchmark Datasets with Data Leakage Prevention for Predictive Process Monitoring

Hans Weytjens, Jochen De Weerdt|arXiv (Cornell University)|2021. 01. 01.

Business Process Modeling and Analysis참고 문헌 7인용 수 1

한 줄 요약

이 논문은 예측 프로세스 모니터링 분야에서 데이터 유출과 테스트 세트 편향을 엄격한 시간적 분할과 케이스 지속 시간 필터링을 통해 제거함으로써, 편향이 없는 공개 벤치마크 데이터셋을 표준화되고 재현 가능한 프레임워크로 제안한다. 아홉 개인 BPIC 데이터셋을 활용하여 저자들은 전처리 방법이 결과의 비교 가능성과 모델의 공정성에 크게 기여함을 입증하였으며, 공개된 스크립트를 통해 광범위한 도입을 가능하게 하여 연구 진전을 가속화한다.

ABSTRACT

Advances in AI, and especially machine learning, are increasingly drawing research interest and efforts towards predictive process monitoring, the subfield of process mining (PM) that concerns predicting next events, process outcomes and remaining execution times. Unfortunately, researchers use a variety of datasets and ways to split them into training and test sets. The documentation of these preprocessing steps is not always complete. Consequently, research results are hard or even impossible to reproduce and to compare between papers. At times, the use of non-public domain knowledge further hampers the fair competition of ideas. Often the training and test sets are not completely separated, a data leakage problem particular to predictive process monitoring. Moreover, test sets usually suffer from bias in terms of both the mix of case durations and the number of running cases. These obstacles pose a challenge to the field's progress. The contribution of this paper is to identify and demonstrate the importance of these obstacles and to propose preprocessing steps to arrive at unbiased benchmark datasets in a principled way, thus creating representative test sets without data leakage with the aim of levelling the playing field, promoting open science and contributing to more rapid progress in predictive process monitoring.

연구 동기 및 목표

예측 프로세스 모니터링 분야의 세 가지 주요 장애요소를 특정하고 해결하기 위해: 일관되지 않은 데이터셋 전처리, 겹치는 훈련/테스트 세트에서의 데이터 유출, 테스트 세트 구성의 편향.
공개 데이터셋을 위한 원칙적인 표준화된 전처리 파이프라인을 수립하여 연구 간 재현성과 공정한 비교를 촉진하기 위해.
시간적 분리와 균형 잡힌 케이스 지속 시간 분포를 보장하는 사전 정의된 훈련 및 테스트 세트를 갖춘 편향 없는 기준 데이터셋을 생성하기 위해.
연구 공동체가 커스터마이징된 데이터 분할을 대신하여 표준화된 벤치마크를 채택하도록 유도하여 분야 내 진전을 가속화하기 위해.

제안 방법

모든 케이스 프리픽스가 훈련 세트와 테스트 세트 양쪽에 동시에 나타나지 않도록 엄격한 시간적 분할을 적용하여 데이터 유출을 완전히 제거한다.
최대 5%의 가장 오래 지속되는 케이스를 제거하여, 훈련 세트 크기를 최대화하면서도 시간적 분리를 유지할 수 있는 최적의 케이스 지속 시간 임계값을 도출한다.
고정된 20% 분할 기반으로 테스트 세트를 정의하며, 테스트 윈도우의 시작과 끝에서 불완전한 케이스 프리픽스를 신중하게 처리한다.
테스트 세트 케이스와 겹치지 않으면서도 대표성 있는 훈련 세트를 확보할 수 있는 최대 케이스 지속 시간을 체계적으로 도출한다.
외곽치 제거 및 시작/종료 시간 조정을 통해 테스트 세트 내 실행 중인 케이스의 수와 지속 시간을 균형 잡도록 편향 제거를 구현한다.
아홉 개인 BPIC 데이터셋에 대해 전처리 파이프라인을 재현할 수 있도록 오픈소스 스크립트를 제공하여 투명성과 재사용 가능성을 확보한다.

실험 결과

연구 질문

RQ1훈련 및 테스트 세트에 겹치는 케이스 프리픽스로 인한 데이터 유출이 잔여 시간 예측 성능에 어떤 영향을 미치는가?
RQ2특히 케이스 지속 시간 분포와 실행 중인 케이스 수에 기인한 테스트 세트 구성의 편향이 모델 평가 및 결과 비교 가능성에 어느 정도의 영향을 미치는가?
RQ3데이터 유출 없이 편향이 없고 대표성이 있는 테스트 세트를 생성할 수 있는 전처리 전략은 무엇인가?
RQ4다양한 데이터 분할 전략이 여러 공개 데이터셋에서 기준 CNN 모델의 평균 절대 오차(MAE)에 어떤 영향을 미치는가?
RQ5표준화되고 공개 가능한 벤치마킹 프레임워크는 재현성 향상과 예측 프로세스 모니터링 분야의 진전 가속화에 기여할 수 있는가?

주요 결과

제안된 전처리 방법은 훈련 및 테스트 세트 양쪽에 동일한 케이스 프리픽스가 존재하지 않도록 보장함으로써 데이터 유출을 크게 감소시켜, 유효한 모델 평가에 필수적이다.
제안된 방법으로 구성된 테스트 세트는 균형 잡힌 케이스 지속 시간 분포와 안정된 실행 중인 케이스 수를 보이며, 모델 성능 평가의 편향을 감소시킨다.
최적화된 최대 케이스 지속 시간과 함께 20% 테스트 세트 분할을 적용하면 더 크고 대표성이 있는 훈련 세트가 생성되어 모델 일반화 능력이 향상된다.
BPIC 2020 Domestic 및 International Declarations의 경우, 외곽치 제거 후 훈련 세트 크기가 원래 데이터셋의 10% 이하로 감소하여 심각한 연구에 부적합한 것으로 판명되었다.
CNN 모델의 MAE는 다양한 전처리 전략에 따라 유의미하게 변동되었으며, 이는 데이터셋 설계가 예측 성능에 직접적이고 측정 가능한 영향을 미친다는 것을 입증한다.
저자들은 아홉 개인 프로세스 마이닝 데이터셋에 대해 벤치마크 데이터셋을 성공적으로 제작 및 공개하였으며, 훈련/테스트 세트 크기, 지속 시간, 케이스 완전성에 대한 상세한 메타데이터를 제공하여 재현 가능한 연구를 가능하게 하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.