Skip to main content
QUICK REVIEW

[论文解读] Vocabulary growth in collaborative tagging systems

Ciro Cattuto, Andrea Baldassarri|arXiv (Cornell University)|Apr 25, 2007
Speech and dialogue systems参考文献 10被引用 45
一句话总结

本文利用500万篇帖子的时间有序数据集,分析了协作标签系统del.icio.us中标签词汇量的增长。研究发现,全局和局部词汇量均以幂律指数小于1的方式亚线性增长,表明用户和资源之间存在一致且非平凡的标签创造模式,暗示民间分类法演化中存在潜在的认知或社会过程。

ABSTRACT

We analyze a large-scale snapshot of del.icio.us and investigate how the number of different tags in the system grows as a function of a suitably defined notion of time. We study the temporal evolution of the global vocabulary size, i.e. the number of distinct tags in the entire system, as well as the evolution of local vocabularies, that is the growth of the number of distinct tags used in the context of a given resource or user. In both cases, we find power-law behaviors with exponents smaller than one. Surprisingly, the observed growth behaviors are remarkably regular throughout the entire history of the system and across very different resources being bookmarked. Similar sub-linear laws of growth have been observed in written text, and this qualitative universality calls for an explanation and points in the direction of non-trivial cognitive processes in the complex interaction patterns characterizing collaborative tagging.

研究动机与目标

  • 理解协作标签系统(如del.icio.us)中不同标签数量随时间的演变方式。
  • 研究词汇量增长是否为亚线性或线性,并探究其在不同情境下是否表现出普适的缩放模式。
  • 确定所观察到的增长动态是否源于用户行为、系统结构或标签创建中的认知过程。
  • 区分全局词汇量增长(整个系统)与局部词汇量增长(每位用户或每项资源),并比较其缩放行为。
  • 探究亚线性增长是否源于用户活动模式、标签多重性或标签行为中的语义约束。

提出的方法

  • 从500万篇del.icio.us帖子构建了时间有序的标签分配表(TAS),保留时间戳以追踪随时间的演化。
  • 基于累积标签事件定义‘内在时间’,以归一化增长动态并减少用户基数扩张带来的偏差。
  • 将内在时间下不同标签数量的拟合结果与幂律函数进行比较,以估算全局与局部词汇量的增长指数。
  • 分析前1,000名最活跃用户与前1,000个最常被书签的资源的指数分布,以评估其变异性与普适性。
  • 将局部增长(每位用户或每项资源)与全局增长进行比较,并排除用户数量增加或每篇帖子平均标签数增加等线性驱动因素。
  • 使用统计分析识别亚线性增长是否为系统性特征,还是个体或集体行为的反映。

实验结果

研究问题

  • RQ1在协作标签系统中,全局不同标签数量如何随时间增长?
  • RQ2以每位用户或每项资源为单位定义的局部词汇量,是否表现出与全局词汇量相似的亚线性增长模式?
  • RQ3观察到的标签词汇量亚线性增长,是用户行为、系统设计还是标签创建中的认知过程所致?
  • RQ4全局层面的增长指数与用户及资源层面的指数分布之间存在何种关系?
  • RQ5所观察到的幂律缩放能否由用户数量增加或每篇帖子平均标签数增加等简单线性趋势解释?

主要发现

  • del.icio.us的全局词汇量大小以幂律方式增长,且指数小于1,表明在整个系统历史中均呈现亚线性增长。
  • 局部词汇量的增长——无论是按用户还是按资源计算——也遵循亚线性幂律模式,其指数在略低于全局指数的特征值附近高度集中。
  • 对于不那么受欢迎的资源,局部增长指数逐渐趋近于1,表明在资源热度下降时,标签行为模式发生转变。
  • 亚线性增长无法通过用户数量或每篇帖子平均标签数的线性增加来解释,表明存在非平凡的底层机制。
  • 尽管个体用户和资源的词汇量存在高度变异性,但系统范围内的增长模式在不同情境下表现出显著的规律性与普适性。
  • 在多样化用户与资源中均保持一致的幂律缩放,表明标签词汇量增长受集体认知或社会过程支配,而非随机或机械动力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。