[論文レビュー] Assessing the Value of Coooperation in Wikipedia
本論文は、ウィキペディアの共同編集プロセスが、編集がさらに編集を生む単純な確率的メカニズムに従うことを示しており、編集回数の分布が対数正規分布となり、特に編集回数の多い記事が重い尾部を示すことを明らかにした。特に重要なかぎり、編集回数の多さと記事の質の間には強い相関関係があることが示され、ウィキペディアが成功した大規模な協働的知識システムであることが裏付けられた。
Since its inception six years ago, the online encyclopedia Wikipedia has accumulated 6.40 million articles and 250 million edits, contributed in a predominantly undirected and haphazard fashion by 5.77 million unvetted volunteers. Despite the apparent lack of order, the 50 million edits by 4.8 million contributors to the 1.5 million articles in the English-language Wikipedia follow strong certain overall regularities. We show that the accretion of edits to an article is described by a simple stochastic mechanism, resulting in a heavy tail of highly visible articles with a large number of edits. We also demonstrate a crucial correlation between article quality and number of edits, which validates Wikipedia as a successful collaborative effort.
研究の動機と目的
- ウィキペディアの記事における編集回数の蓄積を駆動する背後メカニズムを理解すること。
- 記事の年齢と可視性を制御した上で、編集回数と記事の質との相関関係を評価すること。
- 公式な監視が欠如しているにもかかわらず、ウィキペディアのオープンで監視のない協働モデルが高品質なコンテンツを生み出すかどうかを評価すること。
- 編集回数の重い尾部の分布が、高品質な記事の集中を反映しているかどうかを特定すること。
- 編集者数と編集回数が、大規模な協働システムにおける記事の質の信頼できる代理指標として機能するかどうかを調査すること。
提案手法
- 確率微分方程式を用いた編集蓄積のモデル化:Δn(t) = [a + ξ(t)]n(t),ここでn(t)は時刻tにおける編集回数、aは定数のベースレート、ξ(t)は平均ゼロの確率的変動である。
- 各記事の編集回数の対数を、年齢tとともに線形に変化するμ(t)およびσ²(t)を有する対数正規分布にフィットさせること。
- zスコアを用いた編集回数の標準化:x(A) = (log n(A) − μ(t)) / σ(t),これにより記事の年齢を制御し、異なる記事間での相対的編集回数を比較可能にする。
- コミュニティが最高品質とみなした「フェイチャード記事」と非フェイチャード記事との間で、年齢および可視性を標準化した編集回数を比較すること。
- Google PageRankを記事の可視性および関連性の代理指標として用い、編集回数および編集者数との相関関係を分析すること。
- 各400記事の時間スライスごとに、期待度数が8より大きいようにビンを設定し、尤度比統計量を用いたカイ二乗適合度検定を実施して、対数正規分布への適合を検証すること。
実験結果
リサーチクエスチョン
- RQ1ウィキペディアの記事における編集回数の蓄積を駆動する確率的プロセスは何か?
- RQ2記事の年齢および可視性を制御した上で、編集回数とウィキペディアの記事の質との間に有意な相関関係があるか?
- RQ3著しく高い編集回数を持つ記事は、より高い品質のコンテンツを表しており、その理由は何か?
- RQ4異なる編集者の数と記事の質との関係は何か?また、これは信頼できる質の指標として機能するか?
- RQ5記事の可視性(PageRankで測定)が、編集回数および質の認識にどの程度影響を及ぼしているか?
主な発見
- ウィキペディアの記事における編集回数の蓄積は、新しい編集が現在の編集回数に比例する単純な確率的メカニズムに従っており、その結果、記事間での編集回数の分布が対数正規分布となる。
- 編集回数への対数正規分布の適合は統計的に有意であり、400記事の時間スライスごとにp値が良好な適合を示しており、確率的モデルの妥当性が裏付けられた。
- 著しく高い編集回数を持つ記事(分布の重い尾部を形成)は、コミュニティが選定した「フェイチャード記事」と比較することで、より高い品質であることが確認された。
- 編集回数と異なる編集者の数との間に強い相関関係があり、年齢および可視性を制御した後でも、フェイチャード記事では両方の指標が顕著に高いことが分かった。
- フェイチャード記事の標準化された編集回数(zスコア)は、すべてのPageRankレベルで非フェイチャード記事よりも一貫して高く、高品質な記事がより持続的な協働的作業を惹きつけることが示された。
- PageRankは、編集回数および編集者数の対数とほぼ線形の関係を示しており、ウィキペディアのエコシステムにおいて可視性と質が密接に結びついていることが示唆された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。