Skip to main content
QUICK REVIEW

[论文解读] A Dynamic Clustering-Based Markov Model for Web Usage Mining

José Borges, Mark Levene|ArXiv.org|Jun 17, 2004
Data Management and Algorithms参考文献 19被引用 27
一句话总结

本文提出一种基于动态聚类的马尔可夫模型,通过在二阶转移概率出现分歧时对状态进行克隆,提升网络使用挖掘的准确性。通过将具有相似概率的入链聚类,该方法在降低模型复杂度的同时提高预测保真度,利用阈值参数实现可控的状态扩展,达到线性时间性能。

ABSTRACT

Markov models have been widely utilized for modelling user web navigation behaviour. In this work we propose a dynamic clustering-based method to increase a Markov model's accuracy in representing a collection of user web navigation sessions. The method makes use of the state cloning concept to duplicate states in a way that separates in-links whose corresponding second-order probabilities diverge. In addition, the new method incorporates a clustering technique which determines an effcient way to assign in-links with similar second-order probabilities to the same clone. We report on experiments conducted with both real and random data and we provide a comparison with the N-gram Markov concept. The results show that the number of additional states induced by the dynamic clustering method can be controlled through a threshold parameter, and suggest that the method's performance is linear time in the size of the model.

研究动机与目标

  • 提升马尔可夫模型在表示用户网络浏览会话方面的准确性。
  • 解决标准马尔可夫模型因聚合入链而无法捕捉分歧导航模式的局限性。
  • 开发一种仅在必要时基于二阶概率分歧动态克隆状态的方法。
  • 通过引入控制状态扩展的阈值参数,控制模型复杂度。
  • 使用真实数据与合成数据,评估该方法与N-gram马尔可夫模型的性能表现。

提出的方法

  • 当入链表现出显著不同的二阶转移概率时,该方法引入状态克隆以复制状态。
  • 聚类技术将具有相似二阶概率的入链分组并分配至同一状态克隆,从而减少冗余。
  • 模型使用阈值参数控制新增状态的数量,平衡准确性与复杂度。
  • 该方法保持与模型规模成线性关系的时间复杂度,确保可扩展性。
  • 该方法通过引入基于概率的动态状态复制机制,扩展了传统马尔可夫模型,替代了静态状态聚合。
  • 通过真实网络访问日志与随机生成的数据对模型进行评估,以检验其鲁棒性与性能表现。

实验结果

研究问题

  • RQ1如何改进马尔可夫模型,以更好地表示网络使用挖掘中的分歧用户导航模式?
  • RQ2基于二阶转移概率分歧的动态状态克隆会产生何种影响?
  • RQ3将具有相似二阶概率的入链聚类,是否能在不牺牲准确性的情况下降低模型复杂度?
  • RQ4阈值参数如何影响模型准确性与状态数量之间的权衡?
  • RQ5与N-gram马尔可夫模型相比,该方法在性能与可扩展性方面表现如何?

主要发现

  • 通过阈值参数可有效控制动态聚类方法引入的额外状态数量。
  • 该方法在模型规模上实现线性时间复杂度,表明具有良好的可扩展性。
  • 使用真实数据与随机数据的实验表明,该方法在捕捉导航模式方面相比标准N-gram马尔可夫模型具有更高的准确性。
  • 将具有相似二阶概率的入链聚类,可生成更紧凑且更具代表性的状态模型。
  • 动态克隆机制成功分离了分歧的导航行为,提升了模型的保真度。
  • 该方法在合成数据与真实网络使用数据集上均表现出稳健的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。