Skip to main content
QUICK REVIEW

[论文解读] Collaborative thesaurus tagging the Wikipedia way

Jakob Voß|ArXiv.org|Apr 10, 2006
Wikis in Education and Collaboration参考文献 8被引用 98
一句话总结

本文將維基百科的分類系統分析為協同標籤與層次分類的混合體,證明其作為一種動態、使用者驅動的同義詞詞典發揮作用。透過與DDC和del.icio.us等系統比較,研究顯示其獨特地平衡了彈性與結構,展現出高程度的描述符多樣性與多層次組織,支援可擴展的社群自編知識組織。

ABSTRACT

This paper explores the system of categories that is used to classify articles in Wikipedia. It is compared to collaborative tagging systems like del.icio.us and to hierarchical classification like the Dewey Decimal Classification (DDC). Specifics and commonalitiess of these systems of subject indexing are exposed. Analysis of structural and statistical properties (descriptors per record, records per descriptor, descriptor levels) shows that the category system of Wikimedia is a thesaurus that combines collaborative tagging and hierarchical subject indexing in a special way.

研究动机与目标

  • 探討維基百科分類系統如何作為一種協同主題索引的形式運作。
  • 將維基百科的分類系統與傳統層次分類系統(例如DDC)及協同標籤系統(例如del.icio.us)進行比較。
  • 識別定義該系統作為混合同義詞詞典行為之結構與統計特性。
  • 評估社群驅動分類在大型知識儲存庫中的有效性和可擴展性。
  • 理解使用者產生的分類如何在主題索引中平衡彈性與一致性。

提出的方法

  • 使用英文維基百科的資料,分析維基百科分類系統的結構特性。
  • 量測不同層級的描述符頻率、每描述符的記錄數與描述符深度。
  • 比較分類使用情況的統計分佈(例如幂律)與del.icio.us及DDC的分佈。
  • 使用網路分析將分類系統建模為有向無環圖(DAG),以表示層次關係。
  • 應用統計技術評估每則文章的分類數量與每一分類的描述符數量分佈。
  • 透過描述性統計與視覺化(例如直方圖、累積分佈)評估系統行為。

实验结果

研究问题

  • RQ1維基百科分類系統在結構與統計上與協同標籤與層次分類系統相比如何?
  • RQ2維基百科分類系統在多大程度上展現出結合標籤與層次結構的同義詞詞典特性?
  • RQ3維基百科分類系統中描述符與記錄的分佈模式為何?
  • RQ4維基百科的分類層級如何反映具體性與可擴展性之間的平衡?
  • RQ5有哪些證據支持維基百科分類系統作為協同同義詞詞典運作的主張?

主要发现

  • 維基百科分類系統的描述符頻率呈現幂律分佈,與del.icio.us等協同標籤系統類似。
  • 該系統維持高度的層次結構,具有多層次的分類,與平面標籤系統不同。
  • 平均每則文章分配3至5個分類,顯示每則記錄的描述符密度中等至偏高。
  • 每描述符的記錄數量遵循重尾分佈,少數分類極為流行,而多數分類僅被少量使用。
  • 系統在彈性(使用者驅動的標籤)與一致性(層次結構)之間展現強烈平衡,支援可擴展的知識組織。
  • 分類系統的結構支援廣泛的主題覆蓋與細粒度分類,展現出在大型協同環境中的穩健性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。