QUICK REVIEW

[논문 리뷰] A Novel Approach for Mining Similarity Profiled Temporal Association Patterns

Vangipuram Radhakrishna, P. V. Kumar|arXiv (Cornell University)|2016. 04. 18.

Data Mining Algorithms and Applications참고 문헌 14인용 수 24

한 줄 요약

이 논문은 긍정적 및 부정적 지지값과 함께 벤 다이어그램 기반 유사성 분석을 활용하여 시간적 데이터베이스에서 유사성 프로필이 부여된 시간적 연관 패턴을 단일 스캔 방식으로 채굴하는 새로운 방법을 제안한다. 이 방법은 반복적인 데이터베이스 스캔이나 모든 부분집합의 지지값을 유지할 필요 없이 사용자가 지정한 기준 지지 시퀀스와 유사한 패턴을 효율적으로 식별하여, 기존의 빈번한 패턴 채굴 기법에 비해 계산 오버헤드를 크게 감소시킨다.

ABSTRACT

The problem of frequent pattern mining from non-temporal databases is studied extensively by various researchers working in areas of data mining, temporal databases and information retrieval. However, Conventional frequent pattern algorithms are not suitable to find similar temporal association patterns from temporal databases. A Temporal database is a database which can store past, present and future information. The objective of this research is to come up with a novel approach so as to find similar temporal association patterns w.r.t user specified threshold and a given reference support time sequence using concept of Venn diagrams. For this, we maintain two types of supports called positive support and negative support values to find similar temporal association patterns of user interest. The main advantage of our method is that, it performs only a single scan of temporal database to find temporal association patterns similar to specified reference support sequence. This single database scan approach hence eliminates the huge overhead incurred when the database is scanned multiple times. The present approach also eliminates the need to compute and maintain true support values of all the subsets of temporal patterns of previous stages when computing temporal patterns of next stage.

연구 동기 및 목표

시간이 지남에 따라 변화하는 패턴을 다루는 데 있어 기존 빈번한 패턴 채굴 알고리즘의 한계를 해결하기 위해.
사용자가 정의한 기준 지지 시퀀스와 유사한 시간적 연관 패턴을 효율적으로 발견하기 위해.
반복 단계에서 모든 패턴 부분집합의 진정한 지지값을 유지하거나 재계산할 필요를 제거하기 위해.
사용자가 지정한 임계값 기반으로 시간적 패턴 유사성을 정량화하는 데 벤 다이어그램 기반의 유사성 프로필링 메커니즘을 도입하기 위해.
반복적인 중복 데이터베이스 스캔 및 지지값 계산을 최소화하여 시간적 연관 패턴 채굴의 계산 오버헤드를 감소시키기 위해.

제안 방법

이 방법은 두 가지 유형의 지지값을 도입한다: 긍정적 지지값(패턴 발생 빈도)과 부정적 지지값(비발생 빈도)으로, 패턴 유사성을 측정하는 데 사용된다.
후보 패턴의 지지 시퀀스와 기준 지지 시퀀스 간의 겹침을 모델링하기 위해 벤 다이어그램 기반 접근법을 활용한다.
벤 다이어그램에서 유도된 집합의 교집합 및 합집합 연산을 사용하여 후보 패턴의 지지 시퀀스와 기준 시퀀스 간의 유사성을 계산한다.
모든 후보 패턴을 추출하고 그들의 유사성 프로필을 계산하기 위해 시간적 데이터베이스를 한 번의 전체 스캔만 수행한다.
벤 다이어그램 분석에서 유도된 사용자 지정 유사성 임계값 기반으로 패턴을 필터링하여 관련 없는 패턴은 제거한다.
모든 수준에서 패턴 부분집합의 진정한 지지값을 재계산하거나 저장할 필요 없이 채굴 과정을 간소화한다.

실험 결과

연구 질문

RQ1시간적 데이터베이스에서 기준 지지 시퀀스와 유사한 시간적 연관 패턴을 효과적으로 식별하는 방법은 무엇인가?
RQ2정확성이나 완전성을 훼손하지 않으면서 시간적 패턴 채굴의 계산 비용을 줄일 수 있는 메커니즘은 무엇인가?
RQ3단일 데이터베이스 스캔 방식이 반복 스캔을 대체할 수 있는가? 이는 패턴 유사성 탐지 기능을 유지하면서도 가능할까?
RQ4긍정적 및 부정적 지지값을 어떻게 조합하면 시간적 패턴의 유사성 프로필링 정밀도를 향상시킬 수 있는가?
RQ5벤 다이어그램 기반 집합 연산은 시간적 패턴 유사성을 정량화하는 데 어떤 역할을 하는가?

주요 결과

제안된 방법은 시간적 데이터베이스를 단 한 번의 스캔만으로 수행함으로써 계산 오버헤드를 크게 감소시킨다.
긍정적 및 부정적 지지값의 사용은 기존의 지지값 기반 측정 방식에 비해 더 정확하고 세밀한 유사성 프로필링을 가능하게 한다.
벤 다이어그램 기반의 유사성 계산은 사용자가 지정한 기준 시퀀스에 대한 패턴 유사성 정량화에 효과적이다.
다중 반복 단계에서 모든 패턴 부분집합의 진정한 지지값을 유지하거나 재계산할 필요 없이, 메모리 및 처리 비용을 절감한다.
사용자가 지정한 임계값 내에서 기준 시퀀스와 유사한 시간적 연관 패턴을 성공적으로 식별함으로써 사용자 중심의 패턴 탐색을 향상시켰다.
14페이지 분량의 기술적 저널 논문을 통해 검증된 바에 따르면, 이 기법은 효율적이고 실현 가능하며, 유사성 프로필이 부여된 시간적 패턴 채굴에 적합하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.