[논문 리뷰] Heuristics Miners for Streaming Event Data
이 논문은 지속적이고 고속의 이벤트 데이터를 처리할 수 있도록 Heuristics Miner 알고리즘을 개선한 스트림 인식 프레임워크를 제안한다. 이는 변화하는 프로세스를 다룰 수 있도록 설계되었으며, 세 가지 변형—Online HM, Aging이 적용된 HM, Self-Adapting Aging이 적용된 HM—을 도입하여 최소한의 저장소를 사용하면서도 실시간 모델 발견이 가능하게 하여 높은 모델 품질과 개념 드리프트에 대한 적응성을 확보한다. 특히 동적인 환경에서 뛰어난 성능을 발휘한다.
More and more business activities are performed using information systems. These systems produce such huge amounts of event data that existing systems are unable to store and process them. Moreover, few processes are in steady-state and due to changing circumstances processes evolve and systems need to adapt continuously. Since conventional process discovery algorithms have been defined for batch processing, it is difficult to apply them in such evolving environments. Existing algorithms cannot cope with streaming event data and tend to generate unreliable and obsolete results. In this paper, we discuss the peculiarities of dealing with streaming event data in the context of process mining. Subsequently, we present a general framework for defining process mining algorithms in settings where it is impossible to store all events over an extended period or where processes evolve while being analyzed. We show how the Heuristics Miner, one of the most effective process discovery algorithms for practical applications, can be modified using this framework. Different stream-aware versions of the Heuristics Miner are defined and implemented in ProM. Moreover, experimental results on artificial and real logs are reported.
연구 동기 및 목표
- 저장소 및 계산 자원 제약으로 인해 배치 처리가 불가능한 지속적이고 고속의 이벤트 스트림에서 프로세스 모델을 마이닝하는 도전 과제를 해결한다.
- 시간이 지남에 따라 변화하는 비즈니스 프로세스를 다루는 동적 환경에서 실시간 프로세스 발견을 가능하게 하며, 기존의 배치 중심 프로세스 마이닝 알고리즘에서 지원하지 않는 상황을 대응한다.
- 모델 품질을 유지하면서 메모리 사용을 최소화하는 기존 프로세스 마이닝 알고리즘을 온라인, 스트림 인식 버전으로 변환할 수 있는 일반적 프레임워크를 개발한다.
- 정적 및 비정적(드리프트가 발생하는) 데이터 조건 하에서 스트림 인식 프로세스 마이닝 기법의 성능을 평가하며, 모델 적합도(fitness), 정밀도(precision), 적응성에 중점을 둔다.
- 인공적, 합성적, 실제 세계의 이벤트 스트림을 기반으로 제안된 알고리즘을 구현하고 테스트하여 실무 적용에 적합한 솔루션을 제공한다.
제안 방법
- 전체 스트림을 저장하지 않고도 제한된 대표성 있는 이벤트 데이터만을 사용하여 점진적인 모델 구축을 지원하는 온라인 프로세스 마이닝을 위한 일반적 프레임워크를 제안한다.
- Heuristics Miner 알고리즘을 실시간으로 활동 간 의존성을 유지하고 업데이트할 수 있도록 온라인 버전(Online HM)으로 변형한다. 이는 모든 이벤트에 동일한 가중치를 적용한다.
- Aging이 적용된 HM은 할당된 가중치가 시간이 지남에 따라 지수적으로 감소하도록 하며, 할당된 가중치 감쇠 요소 α를 사용하여 오래된 행동의 영향을 줄여 개념 드리프트에 대응한다.
- Self-Adapting Aging이 적용된 HM은 감지된 개념 드리프트에 따라 할당된 가중치 감쇠 요소 α를 동적으로 조정함으로써 수동 설정 없이도 프로세스 변화에 더 민감하게 반응하도록 한다.
- 고처리량 데이터에 적합한 손실 허용 카운팅(Lossy Counting) 알고리즘을 스트림 마이닝 기법으로 통합하여 빈도가 높은 활동 쌍을 오차가 제한된 범위 내에서 효율적으로 추적한다.
- 정밀도와 적합도를 평가 지표로 사용하며, 정밀도는 혼합 또는 드리프트가 발생하는 프로세스에서 일시적인 행동에 과적합되는 것을 방지하는 최소한의 정확한 모델을 선호한다.
실험 결과
연구 질문
- RQ1이벤트 데이터가 지속적이고 고속이며 전체를 저장할 수 없는 스트림 처리 환경에서 프로세스 마이닝 알고리즘을 효과적으로 적응시킬 수 있는가?
- RQ2기존의 배치 중심 프로세스 발견 알고리즘인 Heuristics Miner와 같은 알고리즘을 점진적이고 온라인 버전으로 변환할 수 있으며, 모델 품질은 유지하면서 메모리 사용을 최소화할 수 있는가?
- RQ3노령화 메커니즘과 동적 매개변수 적응이 스트리밍 프로세스 데이터에서 개념 드리프트가 발생할 경우 모델 정확도를 얼마나 향상시킬 수 있는가?
- RQ4창문 기반 또는 주기적 재계산 방법과 비교했을 때, 스트림 인식 프로세스 마이닝 접근법은 모델 적합도, 정밀도, 계산 효율성 측면에서 어떻게 다른가?
- RQ5Lossy Counting과 같은 스트림 마이닝 기법의 통합이 실시간 환경에서 온라인 프로세스 발견의 확장성과 정확도를 향상시킬 수 있는가?
주요 결과
- Online Heuristics Miner(Online HM)는 정적 스트림 환경에서 안정적이고 높은 품질의 모델 발견을 달성하며, 재처리나 과도한 메모리 사용 없이 일관된 성능을 유지한다.
- 자기 적응형 나이드 기반의 HM은 개념 드리프트가 발생하는 동적 환경에서 고정된 나이드 기반 및 주기적 재계산 방법을 능가하며, 변화하는 프로세스 행동에 자동으로 적응함으로써 시간이 지남에 따라 가장 높은 정밀도를 확보한다.
- 손실 허용 카운팅 기반 접근법은 오차가 제한된 범위 내에서 빈도 높은 활동 간 의존성을 효율적으로 추적할 수 있는 확장 가능한 대안을 제공하며, 고처리량 환경에서 뛰어난 성능을 보인다.
- 기본적인 슬라이딩 윈도우 기반 접근법은 합리적인 성능을 보이지만, 전용 스트림 인식 알고리즘에 비해 정밀도와 드리프트에 대한 적응성 측면에서 열등하다.
- 모델 정밀도는 적합도보다 프로세스 진화를 탐지하는 데 더 신뢰할 수 있는 지표이다. 특히 오래된 프로세스 버전과 새로운 프로세스 버전이 번갈아가며 실행되는 경우, 적합도 지표는 오해의 소지가 있다.
- 제안된 스트림 인식 알고리즘은 배치 재처리 대비 시간과 메모리 오버헤드를 크게 줄여 대규모이고 변화가 빠른 시스템에서 실시간 프로세스 마이닝을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.