Skip to main content
QUICK REVIEW

[논문 리뷰] Collaborative thesaurus tagging the Wikipedia way

Jakob Voß|ArXiv.org|2006. 04. 10.
Wikis in Education and Collaboration참고 문헌 8인용 수 98
한 줄 요약

이 논문은 위키백과의 분류 체계를 공동 태깅과 계층적 분류의 하이브리드로 분석하여, 동적으로 작동하는 사용자 주도 어휘사전으로서의 기능을 입증한다. DDC 및 del.icio.us와 같은 시스템과 비교함으로써, 이 시스템은 민첩성과 체계성 사이에 고유한 균형을 유지하고 있음을 보여주며, 높은 기술어 다양성과 다수의 수준으로 구성된 조직 구조를 통해 확장 가능한 공동 기여 기반 지식 조직을 지원한다.

ABSTRACT

This paper explores the system of categories that is used to classify articles in Wikipedia. It is compared to collaborative tagging systems like del.icio.us and to hierarchical classification like the Dewey Decimal Classification (DDC). Specifics and commonalitiess of these systems of subject indexing are exposed. Analysis of structural and statistical properties (descriptors per record, records per descriptor, descriptor levels) shows that the category system of Wikimedia is a thesaurus that combines collaborative tagging and hierarchical subject indexing in a special way.

연구 동기 및 목표

  • 위키백과의 분류 체계가 공동 주제 색인의 형태로 어떻게 작동하는지 조사하기.
  • 전통적인 계층적 분류 체계(예: DDC)와 공동 태깅 체계(예: del.icia.us)와 비교하여 위키백과의 분류 체계를 분석하기.
  • 이 시스템의 행동을 하이브리드 어휘사전으로 정의하는 구조적 및 통계적 성질을 규명하기.
  • 대규모 지식 저장소에서 공동 기여 기반 분류의 효과성과 확장성 평가하기.
  • 사용자가 생성한 분류가 주제 색인에서 민첩성과 일관성 사이에 어떻게 균형을 이루는지 이해하기.

제안 방법

  • 영문 위키백과 데이터를 활용하여 위키백과의 분류 체계의 구조적 성질 분석하기.
  • 다양한 수준에서 기술어 빈도, 기술어당 기록 수, 기술어 깊이 측정하기.
  • del.icio.us 및 DDC와의 통계 분포(예: 힘의 법칙) 비교하기.
  • 방향성 비순환 그래프(DAG)로 분류 체계를 모델링하여 계층적 관계 표현하기.
  • 통계 기법을 적용하여 기사당 분류 수와 분류당 기술어 분포 평가하기.
  • 기술 통계와 시각화(예: 히스토그램, 누적 분포)를 통해 시스템의 행동 평가하기.

실험 결과

연구 질문

  • RQ1위키백과의 분류 체계는 공동 태깅 체계와 계층적 분류 체계와 비교해 구조적·통계적으로 어떻게 다를까?
  • RQ2위키백과의 분류 체계는 어느 정도 태깅과 계층을 융합한 어휘사전의 성질을 보여주는가?
  • RQ3위키백과의 분류 체계에서 기술어와 기록의 분포 패턴은 어떠한가?
  • RQ4위키백과의 분류 수준은 구체성과 확장성 사이의 균형을 어떻게 반영하는가?
  • RQ5위키백과의 분류 체계가 공동 어휘사전으로서 작동한다는 주장을 뒷받침하는 증거는 무엇인가?

주요 결과

  • 위키백과의 분류 체계는 del.icio.us와 같은 공동 태깅 체계와 유사하게 기술어 빈도에 힘의 법칙 분포를 보인다.
  • 이 시스템은 평면적 태깅 체계와 달리 다수의 분류 수준을 유지하며 높은 수준의 계층적 구조를 유지한다.
  • 기사당 평균 3~5개의 분류가 할당되어 기록당 중간에서 높은 기술어 집중도를 나타낸다.
  • 기본 기술어당 기록 수는 꼬리가 무거운 분포를 보이며, 소수의 분류는 매우 인기 있지만 대부분은 거의 사용되지 않는다.
  • 이 시스템은 사용자 주도 태깅의 민첩성과 계층적 구조의 일관성 사이에 강력한 균형을 유지하여 확장 가능한 지식 조직을 가능하게 한다.
  • 분류 체계의 구조는 광범위한 주제 커버리지와 세밀한 분류를 모두 지원하며, 대규모 공동 기여 환경에서의 강건성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.