Skip to main content
QUICK REVIEW

[论文解读] Concept Stability for Constructing Taxonomies of Web-site Users

Sergei O. Kuznetsov, Dmitry I. Ignatov|arXiv (Cornell University)|May 9, 2009
Semantic Web and Ontologies参考文献 4被引用 26
一句话总结

本文提出使用概念稳定性作为标准,以筛选和识别通过形式概念分析(FCA)构建的网站用户分类体系中具有意义的用户群体。通过计算衡量用户群体共享兴趣对成员变动鲁棒性的稳定性指数,该方法能够选出具有社会学意义且稳定的用户子群体——其在捕捉非大型但有意义的用户社区方面,优于传统的冰山式过滤方法。

ABSTRACT

Owners of a web-site are often interested in analysis of groups of users of their site. Information on these groups can help optimizing the structure and contents of the site. In this paper we use an approach based on formal concepts for constructing taxonomies of user groups. For decreasing the huge amount of concepts that arise in applications, we employ stability index of a concept, which describes how a group given by a concept extent differs from other such groups. We analyze resulting taxonomies of user groups for three target websites.

研究动机与目标

  • 解决在网站用户数据的形式概念分析中概念过度膨胀的问题。
  • 在网站用户数据中识别超越大型或高频群体的社会学上有意义的用户群体。
  • 开发一种过滤概念格的方法,优先筛选出稳定且抗噪声的用户分组。
  • 比较基于稳定性的过滤与传统冰山式过滤在识别代表性用户子群体方面的表现。

提出的方法

  • 使用外部(访问的外部网站)和内部(目标网站上访问的页面)用户属性构建形式上下文。
  • 应用形式概念分析(FCA)从用户-属性关联关系中生成概念格。
  • 定义稳定性指数 σ(A,B) = |{C⊆A | C′ = A}| / 2^|A|,以量化概念意图对范围中个体用户移除的鲁棒性。
  • 通过选择稳定性指数高于阈值的概念来过滤概念格,以识别稳定用户群体。
  • 使用 ConceptExplorer 等可视化工具,将结果与冰山式过滤(范围大小高于阈值的概念)进行比较。
  • 通过领域特定的属性合并(例如,将个人银行页面归类为“个人网页”属性)来降低维度,提升可解释性。

实验结果

研究问题

  • RQ1与基于大小的过滤相比,概念稳定性在识别网站用户分类中具有意义的用户群体方面有何改进?
  • RQ2稳定概念在多大程度上捕捉到了冰山式过滤所遗漏的社会学相关用户子群体?
  • RQ3稳定性指数在多大程度上反映了用户分组对用户流动或数据噪声的鲁棒性?
  • RQ4属性聚合与数据预处理对最终用户分类体系的质量和可解释性有何影响?

主要发现

  • 稳定性指数有效识别出非大型但具有社会学意义的用户群体,例如 AIF(黄色报刊)和 Expert(分析性调查)的读者,这些群体在冰山式过滤中被遗漏。
  • 高稳定性指数的概念对用户流动更具鲁棒性,表明其共享兴趣并非小样本或噪声样本的产物。
  • 基于稳定性的方法相比冰山式过滤,产生了更具信息量且更多样化的用户群体集合,后者主要突出主流且访问量大的报纸。
  • 一个大小为 4125 × 225 的上下文生成了包含 57,329 个概念的格,凸显了采用稳定性筛选等有效过滤技术的必要性。
  • 稳定性过滤与冰山式过滤结果相关但存在显著差异,稳定性方法捕捉到了更多细微且有意义的用户子群体。
  • 该方法成功缓解了基于 FCA 的用户分类体系构建中的概念爆炸问题,同时保留了具有社会相关性的分组。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。