Skip to main content
QUICK REVIEW

[논문 리뷰] A Scalable Database for the Storage of Object-Centric Event Logs

Farhang Ghahfarokhi, Anahita, Anahita Farhang Ghahfarokhi|arXiv (Cornell University)|2022. 01. 01.
Business Process Modeling and Analysis인용 수 1
한 줄 요약

이 논문은 MongoDB를 사용하여 객체 중심 이벤트 로그(OCEL)의 확장 가능한 데이터베이스 네이티브 구현을 제안한다. 이는 문서 지향 저장, 인덱싱, 그리고 네이티브 집계 기능을 활용하여 대규모 이벤트 데이터의 효율적 저장 및 쿼리 가능성을 제공한다. 메모리 내 JSON 파싱 방식에 비해 메모리 압박을 줄이고 최대 100M개의 이벤트를 지원하며, BSON 압축을 통해 디스크 공간 절약 효과를 얻는다.

ABSTRACT

Object-centric process mining provides a set of techniques for the analysis of event data where events are associated to several objects. To store Object-centric Event Logs (OCELs), the JSON-OCEL and JSON-XML formats have been recently proposed. However, the proposed implementations of the OCEL are file-based. This means that the entire file needs to be parsed in order to apply process mining techniques, such as the discovery of object-centric process models. In this paper, we propose a database storage for the OCEL format using the MongoDB document database. Since documents in MongoDB are equivalent to JSON objects, the current JSON implementation of the standard could be translated straightforwardly in a series of MongoDB collections.

연구 동기 및 목표

  • 파일 기반 OCEL 스토리지의 확장성 한계를 해결하기 위해, 이는 대규모 로그에서 전체 메모리 로딩이 필요하고 시스템 메모리가 고갈됨을 방지하기 위함이다.
  • 문서 기반 데이터베이스를 사용하여 객체 중심 이벤트 로그의 효율적이고 확장 가능한 스토리지 및 쿼리 기능을 제공하기 위함이다.
  • 라이프사이클 추출 및 직접 이어지는 그래프 계산과 같은 고급 프로세스 마이닝 작업을 데이터베이스 내에서 네이티브로 지원하여 데이터 이동을 줄이고 성능을 향상시키기 위함이다.
  • MongoDB를 백엔드로 사용하여 OCEL 데이터의 임포트, 변환, 분석을 위한 프로덕션 수준의 확장 가능한 도구 체인을 제공하기 위함이다.

제안 방법

  • JSON-OCEL 스키마를 MongoDB 컬렉션에 직접 매핑: 'ocel:events', 'ocel:objects', 'ocel:others'를 별도의 컬렉션으로 사용.
  • 이벤트의 'ocel:omap'과 'ocel:activity'에 다중 키 인덱스를 적용하고, 오브젝트의 'ocel:id'와 'ocel:type'에 인덱스를 적용하여 쿼리 실행을 가속화.
  • MongoDB의 어그리게이션 파이프라인을 활용하여 $unwind 및 $group 단계를 사용해 데이터베이스 내에서 객체 중심 프로세스 마이닝 작업(예: 라이프사이클 추출)을 직접 수행.
  • 전용 임포트/익스포트 스크립트를 통해 JSON/XML-OCEL과 MongoDB 스토리지 간의 양방향 변환을 지원.
  • 대규모 데이터셋을 주로 메모리에 담을 수 없는 경우에도 처리할 수 있도록 MongoDB의 디스크 및 메모리 혼합 처리 모델을 활용.
  • 데이터베이스 내에서 이벤트 수 계산, 오브젝트 유형 통계, 활동 간 시간 간격 메트릭스 등 네이티브 어그리게이션 기반 작업을 구현.

실험 결과

연구 질문

  • RQ1MongoDB와 같은 문서 기반 데이터베이스가, 메모리 내 파일 기반 파싱의 한계를 초월하여 대규모 객체 중심 이벤트 로그의 저장 및 쿼리에 효과적으로 확장 가능한가?
  • RQ2대규모 이벤트 로그에서 MongoDB 기반 OCEL 스토리지의 메모리 및 디스크 사용량은 전통적인 메모리 내 JSON 로딩 방식과 비교해 어떻게 되는가?
  • RQ3네이티브 데이터베이스 어그리게이션은 객체 중심 프로세스 마이닝에서 응용 프로그램 수준의 계산을 어느 정도 대체할 수 있는가?
  • RQ4MongoDB 기반 OCEL 구현은 증가하는 로그 크기(100만~1억 건의 이벤트)에 따라 어떤 성능 및 확장성 특성을 보이는가?
  • RQ5데이터베이스 네이티브 접근 방식은 라이프사이클 추출 및 직접 이어지는 그래프 계산과 같은 핵심 프로세스 마이닝 작업을 효율적으로 수행하고 데이터 이동을 줄일 수 있는가?

주요 결과

  • MongoDB는 최대 1억 건의 이벤트를 성공적으로 저장했으며, 동일한 워크로드에서 메모리 내 JSON 파싱 시 메모리 고갈 오류가 발생했다.
  • BSON 이진 압축 덕분에 디스크 사용량이 크게 감소했으며, 원본 JSON 기준 54.6GB인 반면 디스크에는 36.5GB만 소비되었다.
  • 데이터 양 증가에 따라 인덱스 크기가 크게 증가했으며, 1억 건 이벤트 로그에서는 16.9GB에 이르렀지만, 세밀한 인덱싱 덕분에 빠른 쿼리 실행이 가능했다.
  • mDFG 계산 시간은 데이터 크기 증가에 따라 증가했지만, MongoDB의 하이브리드 메모리/디스크 처리 덕분에 메모리 고갈을 피하면서도 실행 가능했다.
  • 데이터베이스 네이티브 어그리게이션 파이프라인을 통해 $unwind 및 $group를 사용한 효율적인 라이프사이클 추출이 가능해져 데이터 이동을 줄이고 확장 가능한 분석을 가능하게 했다.
  • 도구 체인은 기존 OCEL 표준과 완전히 호환되었으며, JSON/XML과 MongoDB 형식 간의 양방향 변환을 지원했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.