Skip to main content
QUICK REVIEW

[논문 리뷰] Semantic Analysis of Tag Similarity Measures in Collaborative Tagging Systems

Ciro Cattuto, Dominik C. Benz|ArXiv.org|2008. 05. 14.
Semantic Web and Ontologies참고 문헌 16인용 수 39
한 줄 요약

이 논문은 대규모 del.icio.us 데이터셋에서 태그 유사도 측정 방법 세 가지—공출현, 공출현 분포의 코사인 유사도, FolkRank—을 평가하며, WordNet의 동의어집에 대응시켜 의미적 성질을 기반으로 분석한다. 결과적으로 코사인 유사도는 동의어 탐지에서 뛰어난 성능을 보이며, FolkRank와 공출현은 계층적 관계 및 다어휘어의 탐지에 더 적합하다.

ABSTRACT

Social bookmarking systems allow users to organise collections of resources on the Web in a collaborative fashion. The increasing popularity of these systems as well as first insights into their emergent semantics have made them relevant to disciplines like knowledge extraction and ontology learning. The problem of devising methods to measure the semantic relatedness between tags and characterizing it semantically is still largely open. Here we analyze three measures of tag relatedness: tag co-occurrence, cosine similarity of co-occurrence distributions, and FolkRank, an adaptation of the PageRank algorithm to folksonomies. Each measure is computed on tags from a large-scale dataset crawled from the social bookmarking system del.icio.us. To provide a semantic grounding of our findings, a connection to WordNet (a semantic lexicon for the English language) is established by mapping tags into synonym sets of WordNet, and applying there well-known metrics of semantic similarity. Our results clearly expose different characteristics of the selected measures of relatedness, making them applicable to different subtasks of knowledge extraction such as synonym detection or discovery of concept hierarchies.

연구 동기 및 목표

  • 협업 태깅 시스템 내 세 가지 태그 유사도 측정 방법의 의미적 특성 분석 및 비교.
  • 의미적 해석 가능성을 확보하기 위해 태깅 기반의 유사도 측정 방법을 어휘적 의미 자원(WordNet)에 기반하여 정립.
  • 동의어 탐지, 계층 구조 탐지, 다어휘어 식별과 같은 온톨로지 학습 작업에 가장 적합한 유사도 측정 방법 평가.
  • WordNet 경로 분석을 통한 의미 기반 기반의 태그 관련성 측정 방법 평가를 위한 방법론 프레임워크 제공.
  • 협업 태깅 환경에서 후속 지식 추출 작업에 적합한 유사도 측정 방법 선택을 안내.

제안 방법

  • del.icio.us 소셜 북마크 시스템의 대규모 태그 스냅샷을 수집.
  • 기존의 WordNet 유사도 측정 기법을 활용하여 del.icio.us 태그를 WordNet 동의어집에 매핑함으로써 의미 기반 기반을 확보.
  • 세 가지 태그 관련성 측정 방법 계산: 태그 공출현 수, 공출현 분포의 코사인 유사도, FolkRank(협업 태깅을 위한 PageRank 변형).
  • 각 측정 방법에 따라 태그와 가장 관련성이 높은 태그 간 WordNet 내 최단경로의 분포를 분석하며, 경로 길이와 간선 구성(상위어 대비 하위어)을 중점적으로 고려.
  • Jiang와 Conrath의 의미 유사도 측정 방법과 WordNet 분류 체계 내 경로 길이를 활용하여 각 관련성 측정 방법의 의미적 성격을 검증하고 특성화.
  • 최단경로의 간선 구성(예: 상향/하향 간선)을 비교하여 각 측정 방법이 동의어, 상위어, 형제어 중 어느 쪽에 더 기울어져 있는지 추론.

실험 결과

연구 질문

  • RQ1WordNet에 기반하여 기반된 경우, 공출현, 코사인 유사도, FolkRank와 같은 다양한 태그 관련성 측정 방법의 의미적 특성은 어떻게 비교될 수 있는가?
  • RQ2어느 측정 방법이 협업 태깅 태그에서 동일한 WordNet 동의어집에 속하는 의미적 동의어를 가장 정확하게 식별하는가?
  • RQ3어느 측정 방법이 협업 태깅 내 태그 간 계층적 관계(예: 상위어 관계)를 가장 잘 포착하는가?
  • RQ4세 가지 측정 방법 간 WordNet 내 최단경로의 간선 구성은 어떻게 다를 수 있으며, 이는 각 측정 방법의 의미적 편향을 어떻게 드러내는가?
  • RQ5다어휘어가 별개의 태그로 분리된 경우, 어떤 측정 방법이 이를 가장 효과적으로 식별하는가?

주요 결과

  • 코사인 유사도는 18%의 경우에서 동일한 WordNet 동의어집에 속하는 태그를 식별하여, 동의어 탐지에서 뛰어난 성능을 보였다.
  • FolkRank와 공출현 관련성 측정 방법은 유사한 경로 길이 분포를 보이며, 가장 관련성이 높은 태그의 85%와 87%가 각각 WordNet 내 경로 길이 ≥3에 해당했다.
  • 코사인 유사도는 형제어 관계(동의어)에 심한 편향을 보이며, 길이 2인 경로의 90%가 상향 및 하향 간선 한 쌍으로 구성되어 있었다.
  • 공출현과 FolkRank 측정 방법은 상위어 관계를 선호하는 경향을 보이며, 길이 1인 경로의 약 절반은 상위어로 향했다.
  • FolkRank는 'open'과 'source'와 같이 다어휘어 간 상호 관련성을 독자적으로 식별하여, 각각의 태그가 서로의 상위 10개 관련 태그에 포함되는 것을 보였다.
  • 코사인 유사도 측정 방법은 길이 1(한 간선)인 경로의 수가 부족한 편이었으며, 이는 상위어 관계보다 형제어나 동의어 관계를 더 선호하는 경향을 반영하고 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.