[논문 리뷰] A Dynamic Clustering-Based Markov Model for Web Usage Mining
이 논문은 이阶 전이 확률이 분리될 경우 상태를 복제함으로써 웹 사용 마이닝 정확도를 향상시키는 동적 클러스터링 기반 마르코프 모델을 제안한다. 유사한 확률을 가진 인bound링크를 클러스터링하여 모델 복잡도를 감소시키면서 예측 정밀도를 향상시키며, 임계값 파rameter를 통해 상태 확장을 제어함으로써 선형 시간 성능을 달성한다.
Markov models have been widely utilized for modelling user web navigation behaviour. In this work we propose a dynamic clustering-based method to increase a Markov model's accuracy in representing a collection of user web navigation sessions. The method makes use of the state cloning concept to duplicate states in a way that separates in-links whose corresponding second-order probabilities diverge. In addition, the new method incorporates a clustering technique which determines an effcient way to assign in-links with similar second-order probabilities to the same clone. We report on experiments conducted with both real and random data and we provide a comparison with the N-gram Markov concept. The results show that the number of additional states induced by the dynamic clustering method can be controlled through a threshold parameter, and suggest that the method's performance is linear time in the size of the model.
연구 동기 및 목표
- 사용자 웹 내비게이션 세션을 더 정확하게 표현하기 위해 마르코프 모델의 정확도를 향상시키는 것.
- 집계된 인bound링크로 인해 표준 마르코프 모델이 분리된 내비게이션 패턴을 포착하지 못하는 한계를 해결하는 것.
- 이阶 전이 확률의 분리 여부에 따라 상태를 동적으로 복제하는 방법을 개발하는 것.
- 상태 확장을 제어하기 위해 임계값 파rameter를 도입하여 모델 복잡도를 조절하는 것.
- 실제 및 합성 데이터를 사용하여 N-gram 마르코프 모델과의 성능을 평가하는 것.
제안 방법
- 이 방법은 인bound링크의 이阶 전이 확률이 유의미하게 다를 경우 상태를 복제함으로써 상태를 중복화한다.
- 클러스터링 기법을 사용해 유사한 이阶 확률을 가진 인bound링크를 그룹화하여 동일한 상태 복제본에 할당함으로써 중복을 줄인다.
- 모델은 임계값 파rameter를 사용해 도입되는 추가 상태의 수를 제어하며, 정확도와 복잡도 사이의 균형을 이룬다.
- 이 방법은 모델 크기에 대해 선형 시간 복잡도를 유지하여 확장성을 보장한다.
- 기존 마르코프 모델은 정적 상태 집계 방식을 사용하는 반면, 이 방법은 확률 기반 동적 상태 중복을 도입함으로써 이를 확장한다.
- 모델은 실제 웹 액세스 로그와 무작위로 생성된 데이터를 모두 사용하여 정확성과 성능을 평가한다.
실험 결과
연구 질문
- RQ1마르코프 모델은 어떻게 개선되어야 웹 사용 마이닝에서 분리된 사용자 내비게이션 패턴을 더 잘 표현할 수 있는가?
- RQ2이阶 전이 확률 분리 기반으로 상태를 동적으로 복제하는 것이 어떤 영향을 미치는가?
- RQ3유사한 이阶 확률을 가진 인bound링크를 클러스터링하면 정확도를 훼손하지 않고 모델 복잡도를 줄일 수 있는가?
- RQ4임계값 파rameter는 정확도와 상태 수 사이의 상호 교환 관계에 어떤 영향을 미치는가?
- RQ5제안된 방법은 N-gram 마르코프 모델과 비교해 성능 및 확장성 측면에서 어떻게 다른가?
주요 결과
- 동적 클러스터링 방법에 의해 도입되는 추가 상태의 수는 임계값 파rameter를 통해 효과적으로 제어할 수 있다.
- 이 방법은 모델 크기에 대해 선형 시간 복잡도를 달성하여 양호한 확장성을 보인다.
- 실제 및 무작위 데이터를 사용한 실험 결과, 표준 N-gram 마르코프 모델보다 내비게이션 패턴을 더 정확하게 포착하는 것으로 나타났다.
- 유사한 이阶 확률을 가진 인bound링크를 클러스터링하면 더 컴act하고 대표적인 상태 모델이 만들어진다.
- 동적 복제 메커니즘이 분리된 내비게이션 행동을 성공적으로 분리하여 모델의 정밀도를 향상시켰다.
- 이 방법은 합성 및 실제 웹 사용 데이터셋 모두에서 뛰어난 성능을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.