Skip to main content
QUICK REVIEW

[論文レビュー] Collaborative thesaurus tagging the Wikipedia way

Jakob Voß|ArXiv.org|Apr 10, 2006
Wikis in Education and Collaboration参考文献 8被引用数 98
ひとこと要約

この論文は、Wikipediaのカテゴリーシステムを共同タグ付けと階層的分類のハイブリッドとして分析し、動的でユーザー主導の同義語集(thesaurus)として機能することを示している。DDC や del.icio.us などのシステムと比較することで、柔軟性と構造の独自のバランスが明らかになり、スケーラブルでコミュニティ主導の知識組織化を支える高い記述子の多様性と多段階の組織化が示された。

ABSTRACT

This paper explores the system of categories that is used to classify articles in Wikipedia. It is compared to collaborative tagging systems like del.icio.us and to hierarchical classification like the Dewey Decimal Classification (DDC). Specifics and commonalitiess of these systems of subject indexing are exposed. Analysis of structural and statistical properties (descriptors per record, records per descriptor, descriptor levels) shows that the category system of Wikimedia is a thesaurus that combines collaborative tagging and hierarchical subject indexing in a special way.

研究の動機と目的

  • Wikipediaのカテゴリーシステムが共同主題索引の一種としてどのように機能するかを調査すること。
  • Wikipediaのカテゴリーシステムを、伝統的な階層的分類システム(例:DDC)と共同タグ付けシステム(例:del.icio.us)と比較すること。
  • このシステムがハイブリッド同義語集としての行動を特徴づける構造的および統計的特性を特定すること。
  • 大規模な知識リポジトリにおけるコミュニティ主導分類の効果性とスケーラビリティを評価すること。
  • ユーザーが生成したカテゴリが、主題索引における柔軟性と一貫性のバランスをどのようにとっているかを理解すること。

提案手法

  • 英語Wikipediaのデータを用いて、Wikipediaのカテゴリーシステムの構造的特性を分析すること。
  • 複数の段階にわたり、記述子の頻度、記述子あたりのレコード数、記述子の深さを測定すること。
  • del.icio.us や DDC における使用分布と同様に、カテゴリ使用の統計的分布(例:べき乗則)を比較すること。
  • ネットワーク解析を用いて、カテゴリーシステムを有向無閉路グラフ(DAG)としてモデル化し、階層的関係を表現すること。
  • 統計的手法を用いて、記事あたりのカテゴリ数やカテゴリあたりの記述子数の分布を評価すること。
  • 記述統計と可視化(例:ヒストограм、累積分布)を通じて、システムの挙動を評価すること。

実験結果

リサーチクエスチョン

  • RQ1Wikipediaのカテゴリーシステムは、共同タグ付けおよび階層的分類システムと比べて、構造的および統計的にどのように異なるか?
  • RQ2Wikipediaのカテゴリーシステムは、タグ付けと階層を組み合わせた同義語集の性質をどの程度示しているか?
  • RQ3Wikipediaのカテゴリーシステムにおける記述子とレコードの分布的パターンは何か?
  • RQ4Wikipediaにおけるカテゴリの段階は、明確さとスケーラビリティのバランスをどのように反映しているか?
  • RQ5Wikipediaのカテゴリーシステムが共同同義語集として機能しているという主張を裏付ける証拠は何か?

主な発見

  • Wikipediaのカテゴリーシステムは、del.icio.us などの共同タグ付けシステムと同様に、記述子頻度にべき乗則の分布を示している。
  • このシステムは、フラットなタグ付けシステムとは異なり、複数段階のカテゴリを含む高い階層的構造を維持している。
  • 平均して、1記事あたり3〜5つのカテゴリが割り当てられており、レコードあたりの中程度から高い記述子密度を示している。
  • 記述子あたりのレコード数は、重い尾を示す分布を示しており、一部のカテゴリは非常に人気がある一方で、大多数のカテゴリはほとんど使われていない。
  • このシステムは、ユーザー主導のタグ付けによる柔軟性と、階層的構造による一貫性の両方を強くバランスしており、スケーラブルな知識組織化を可能にしている。
  • カテゴリーシステムの構造は、広範な主題カバレッジと細分化された分類の両方をサポートしており、大規模な共同環境における強靭性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。