[논문 리뷰] Scalable Online Conformance Checking Using Incremental Prefix-Alignment Computation
이 논문은 Apache Kafka를 사용하여 실시간 프로세스 스트림에서 정확한 이탈 탐지가 가능한 확장성 있고 분산된 증분 프리픽스 정렬 계산을 위한 구현을 제시한다. 직접 동기화와 프리픽스 캐싱을 도입함으로써 계산 시간을 크게 줄였으며, 최대 14배의 성능 향상을 달성하였다. 이는 소비자 지연을 낮게 유지함으로써 산업 시스템에서 실시간 준수 모니터링을 실현 가능하게 한다.
Conformance checking techniques aim to collate observed process behavior with normative/modeled process models. The majority of existing approaches focuses on completed process executions, i.e., offline conformance checking. Recently, novel approaches have been designed to monitor ongoing processes, i.e., online conformance checking. Such techniques detect deviations of an ongoing process execution from a normative process model at the moment they occur. Thereby, countermeasures can be taken immediately to prevent a process deviation from causing further, undesired consequences. Most online approaches only allow to detect approximations of deviations. This causes the problem of falsely detected deviations, i.e., detected deviations that are actually no deviations. We have, therefore, recently introduced a novel approach to compute exact conformance checking results in an online environment. In this paper, we focus on the practical application and present a scalable, distributed implementation of the proposed online conformance checking approach. Moreover, we present two extensions to said approach to reduce its computational effort and its practical applicability. We evaluate our implementation using data sets capturing the execution of real processes.
연구 동기 및 목표
- 오차가 없는 정확한 이탈 탐지 기능을 제공하는 실용적이고 확장 가능한 온라인 준수 검사를 위한 기술적 격차를 해소한다.
- 최소 지연 시간으로 이벤트 스트림을 증분적으로 처리함으로써 프로세스 실행의 실시간 모니터링을 가능하게 한다.
- 생산 환경에서 정확한 준수 검사를 실현 가능하게 하기 위해 온라인 정렬 계산의 계산 오버헤드를 줄인다.
- 고성능 이벤트 스트림을 처리할 수 있도록 Apache Kafka를 활용한 분산형, 장애 내성 아키텍처를 설계한다.
- 직접 동기화와 프리픽스 캐싱이라는 두 가지 신규 확장 기법을 통해 성능을 향상시켜 확장성과 효율성을 높인다.
제안 방법
- Apache Kafka를 스트리밍 플랫폼으로 활용하여 온라인 준수 검사 파이프라인을 여러 노드에 걸쳐 분산 및 확장한다.
- 각 새로운 이벤트가 도착할 때마다 최단경로 문제의 탐색 공간을 확장함으로써 증분 프리픽스 정렬 계산을 구현하며, 각 단계에서 최적의 정렬을 보장한다.
- 현재 이벤트가 중간 단계 없이 모델과 직접 동기화 가능한지 확인함으로써 중복된 경로 탐색을 방지하는 직접 동기화 기법을 도입한다.
- 각 Kafka 브로커 노드 내부에 위치한 in-process TinyLFU 캐시를 활용해 프리픽스 정렬을 저장하고 재사용함으로써 자주 발생하는 프리픽스에 대한 재계산을 줄인다.
- 각 프로세스 인스턴스가 자체 검색 상태를 유지하는 분산 상태 관리 패턴을 적용함으로써 독립적 처리와 장애 내성 기능을 확보한다.
- 평가를 위해 실제 이벤트 로그에 시간 압축 기법을 적용하여 고속도 스트림을 시뮬레이션하면서도 시간적 의미를 유지한다.
실험 결과
연구 질문
- RQ1실시간 프로세스 모니터링을 위한 분산 스트리밍 환경에서 증분 프리픽스 정렬 계산이 효율적으로 확장될 수 있는가?
- RQ2직접 동기화와 프리픽스 캐싱가 온라인 준수 검사의 성능과 확장성에 어떤 영향을 미치는가?
- RQ3제안된 확장 기법들이 실제 산업 프로세스 스트림 처리에서 계산 시간과 소비자 지연을 얼마나 줄이는가?
- RQ4두 가지 확장 기법이 다양한 실제 프로세스 로그에서 성능 향상에 상호보완적인 효과를 가지는가?
- RQ5고처리량 이벤트 스트림을 처리하는 산업 환경에서 정확한 온라인 준수 검사를 실현 가능한가?
주요 결과
- BPI Ch. 2020 로그에서 DSC 버전(직접 동기화 및 프리픽스 캐싱 모두 적용)은 기준 버전인 PL 대비 평균 처리 시간을 14배 빠르게 하였다.
- 프리픽스 캐싱 덕분에 BPI Ch. 2020 로그에서 평균 처리 시간은 14ms로 단축되었으며, 기존 버전 대비 1449ms에서 크게 개선되었다.
- DSC 버전에서는 소비자 지연이 크게 감소하여 100ms 이상 대기하는 메시지 비율이 0.01% 미만으로 낮아졌으며, 처리 지연이 낮다는 것을 시사한다.
- 직접 동기화 기법만 적용했을 경우 BPI Ch. 2019 로그에서 평균 처리 시간이 80% 감소했지만, BPI Ch. 2017 로그에서는 적용 범위가 제한되어 효과가 떨어졌다.
- 대부분의 로그에서 두 기법이 상호보완적인 효과를 보였으며, DSC는 모든 테스트 데이터셋에서 개별 기법과 기준 버전을 모두 초월하는 성능을 보였다.
- 시스템은 최대 890일의 역사적 데이터를 10분 내로 재생할 수 있도록 압축한 실제 이벤트 스트림을 성공적으로 처리하여 확장성과 실시간 처리 가능성의 실현 가능성을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.