Skip to main content
QUICK REVIEW

[論文レビュー] Semantic Analysis of Tag Similarity Measures in Collaborative Tagging Systems

Ciro Cattuto, Dominik C. Benz|ArXiv.org|May 14, 2008
Semantic Web and Ontologies参考文献 16被引用数 39
ひとこと要約

本稿は、大規模な del.icio.us データセット上で、共起性、共起分布のコサイン類似度、FolkRank の3つのタグ類似度測定法を評価し、WordNetのシングレットにマッピングすることでそれらの意味的性質を裏付けている。類似度測定法の性能を比較した結果、コサイン類似度は類義語検出に優れており、FolkRank と共起性は階層的関係や複数語の語彙的単位(lexeme)の発見に適していることが判明した。

ABSTRACT

Social bookmarking systems allow users to organise collections of resources on the Web in a collaborative fashion. The increasing popularity of these systems as well as first insights into their emergent semantics have made them relevant to disciplines like knowledge extraction and ontology learning. The problem of devising methods to measure the semantic relatedness between tags and characterizing it semantically is still largely open. Here we analyze three measures of tag relatedness: tag co-occurrence, cosine similarity of co-occurrence distributions, and FolkRank, an adaptation of the PageRank algorithm to folksonomies. Each measure is computed on tags from a large-scale dataset crawled from the social bookmarking system del.icio.us. To provide a semantic grounding of our findings, a connection to WordNet (a semantic lexicon for the English language) is established by mapping tags into synonym sets of WordNet, and applying there well-known metrics of semantic similarity. Our results clearly expose different characteristics of the selected measures of relatedness, making them applicable to different subtasks of knowledge extraction such as synonym detection or discovery of concept hierarchies.

研究の動機と目的

  • 共同タグ付けシステムにおける3つのタグ類似度測定法の意味的特性を分析・比較すること。
  • フォークソノミーに基づく類似度測定法を、解釈可能性を高めるために語彙的意味リソース(WordNet)に根拠づけること。
  • 類義語検出、階層関係の発見、複数語の語彙的単位の同定といった、オントロジー学習タスクに最も適した類似度測定法を評価すること。
  • WordNetのパス解析による意味的根拠を用いた、タグ関連性測定法の評価のための方法論的フレームワークを提供すること。
  • フォークソノミーにおける下流の知識抽出タスクに適した類似度測定法の選定を支援すること。

提案手法

  • del.icio.us ソーシャルブックマークシステムから大規模なタグスナップショットを収集する。
  • 既存の WordNet 類似度メトリクスを用いて、del.icio.us タグを WordNet シングレットにマッピングし、意味的根拠を付与する。
  • 3つのタグ関連性測定法を計算する:タグの共起回数、共起分布のコサイン類似度、およびフォークソノミー用に適応した PageRank の一種である FolkRank。
  • 各測定法におけるタグとその最も関連性の高いタグとの間の WordNet 内の最短パスの分布を分析し、パス長さとエッジ構成(上位語 vs. 下位語)に注目する。
  • Jiang と Conrath の意味的類似度測定法と WordNet の分類階層におけるパス長を用いて、各関連性測定法の意味的性質を検証・特徴づける。
  • 最短パスのエッジ構成(例:上行・下行エッジ)を比較することで、各測定法が類義語、上位語、または兄弟語のどれを好むかを推論する。

実験結果

リサーチクエスチョン

  • RQ1WordNet に根拠づけられた場合、共起性、コサイン類似度、FolkRank の3つのタグ関連性測定法は、意味的特性においてどのように異なるか?
  • RQ2どの測定法がフォークソノミーのタグにおいて、同じ WordNet シングレットに属する意味的類義語を最も正確に特定できるか?
  • RQ3どの測定法がフォークソノミー内のタグ間で階層的関係(例:上位語関係)を最もよく捉えられるか?
  • RQ43つの測定法における WordNet の最短パスのエッジ構成はどのように異なるのか? そして、それらは各測定法の意味的バイアスをどのように明らかにするか?
  • RQ5複数語の語彙的単位が別々のタグに分割されている場合、どの測定法が最も効果的にそれらを同定できるか?

主な発見

  • コサイン類似度は、18% のケースで同じ WordNet シングレットに属するタグを同定しており、類義語検出において優れた性能を示している。
  • FolkRank と共起性関連性は、類似度測定法のパス長分布が類似しており、最も関連性の高いタグが WordNet でパス長 ≥3 となる割合がそれぞれ 85% と 87% に達している。
  • コサイン類似度は、兄弟関係(類義語)に顕著なバイアスを示しており、パス長 2 の 90% が上位語と下位語のエッジの組み合わせ(1つずつ)で構成されている。
  • 共起性と FolkRank 測定法は、上位語関係を好む傾向を示しており、パス長 1 の約半数が上位語を指している。
  • FolkRank は、'open' と 'source' のような複数語語彙的単位の間で、相互に高い関連性を示すという特徴を有しており、互いに相手の上位10件以内の関連タグに含まれている。
  • コサイン類似度は、パス長 1(1本のエッジ)のパス数が少ない傾向にあり、これは上位語関係よりも兄弟語や類義語関係を好む傾向と整合的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。