Skip to main content
QUICK REVIEW

[論文レビュー] Concept Stability for Constructing Taxonomies of Web-site Users

Sergei O. Kuznetsov, Dmitry I. Ignatov|arXiv (Cornell University)|May 9, 2009
Semantic Web and Ontologies参考文献 4被引用数 26
ひとこと要約

本稿では、形式的概念分析(FCA)を用いて構築されたウェブサイト利用者分類における意味のある利用者グループを絞り込み・同定する基準として、概念の安定性を提案する。利用者メンバーの変動に対して共有兴趣がどれほど耐性を持つのかを測る安定性インデックスを計算することで、社会学的に有意義な安定した利用者セグメントを特定する。従来のアイスバーグベースのフィルタリングに比べ、大規模ではないが意味のある利用者コミュニティを捉える点で優れている。

ABSTRACT

Owners of a web-site are often interested in analysis of groups of users of their site. Information on these groups can help optimizing the structure and contents of the site. In this paper we use an approach based on formal concepts for constructing taxonomies of user groups. For decreasing the huge amount of concepts that arise in applications, we employ stability index of a concept, which describes how a group given by a concept extent differs from other such groups. We analyze resulting taxonomies of user groups for three target websites.

研究の動機と目的

  • ウェブ利用者データの形式的概念分析における概念の過剰な増加という課題に対処すること。
  • 大規模または頻度の高いグループにとどまらない、社会学的に意味のある利用者グループをウェブサイト利用者データから同定すること。
  • 安定性を重視し、ノイズに強く耐性のある利用者グループのフィルタリング手法を開発すること。
  • 安定性ベースのフィルタリングと従来のアイスバーグフィルタリングを比較し、代表的な利用者セグメントを同定する能力を検証すること。

提案手法

  • 外部(訪問した外部サイト)および内部(ターゲットサイト内の訪問ページ)の利用者属性を用いて形式的文脈を構築する。
  • 利用者-属性のインシデント関係から形式的概念分析(FCA)を適用し、概念ラティスを生成する。
  • 安定性インデックス σ(A,B) = |{C⊆A | C′ = A}| / 2^|A| を定義し、概念の意図(intent)がその範囲(extent)から個々の利用者を除去してもどれほど耐性があるかを定量化する。
  • 安定性インデックスがしきい値を超える概念のみを選択することで、概念ラティスをフィルタリングし、安定した利用者グループを特定する。
  • 可視化ツール(例:ConceptExplorer)を用いて、アイスバーグフィルタリング(範囲のサイズがしきい値を超える概念)と結果を比較する。
  • ドメイン固有の属性の統合(例:個人向けバンキングページを「個人用ウェブページ」属性にグループ化)を実施し、次元削減と解釈可能性の向上を図る。

実験結果

リサーチクエスチョン

  • RQ1サイズベースのフィルタリングと比較して、概念の安定性はウェブサイト利用者分類における意味のある利用者グループの選択をどのように改善するか?
  • RQ2安定した概念は、アイスバーグフィルタリングが見逃す、社会学的に関連のある利用者セグメントをどの程度捉えられるか?
  • RQ3安定性インデックスは、利用者入れ替えやデータノイズに対して利用者グループの整合性がどの程度保たれているかをどのように反映するか?
  • RQ4属性の集約およびデータ前処理は、得られる利用者分類の質と解釈可能性にどのような影響を与えるか?

主な発見

  • 安定性インデックスは、アイスバーグフィルタリングが見逃した非大規模だが社会学的に有意義な利用者グループ(例:AIF(イエローメディア)の読者、Expert(分析的調査)の読者)を効果的に同定した。
  • 高い安定性インデックスを示す概念は、利用者入れ替えに対してより耐性があり、その共有興趣が小規模またはノイズの多い利用者サンプルの産物ではないことを示した。
  • アイスバーグフィルタリングが主にメジャーで広く訪問された新聞を強調するのに対し、安定性ベースのアプローチはより情報量が多く多様な利用者グループを生成した。
  • サイズ4125 × 225の文脈から57,329個の概念を含むラティスが生成された。これは、安定性ベースの選択のような効果的なフィルタリング技術の必要性を示している。
  • 安定性フィルタリングとアイスバーグフィルタリングは相関はあったが、顕著に異なる結果をもたらし、安定性ベースの手法がより洗練され意味のある利用者セグメントを捉えた。
  • 本手法は、FCAに基づく利用者分類構築における概念の爆発的増加問題を効果的に軽減しながら、社会的に関連のあるグループを保持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。