QUICK REVIEW

[論文レビュー] A Dynamic Clustering-Based Markov Model for Web Usage Mining

José Borges, Mark Levene|ArXiv.org|Jun 17, 2004

Data Management and Algorithms参考文献 19被引用数 27

ひとこと要約

本稿では、2次遷移確率に乖離が生じた場合に状態をクローンすることで、状態の複製を伴う動的クラスタリングベースのマルコフモデルを提案する。類似した確率を持つインリンクをクラスタリングすることにより、モデルの複雑さを低減するとともに予測の正確性を向上させ、しきい値パラメータを用いた状態拡張の制御が可能となる線形時間性能を達成する。

ABSTRACT

Markov models have been widely utilized for modelling user web navigation behaviour. In this work we propose a dynamic clustering-based method to increase a Markov model's accuracy in representing a collection of user web navigation sessions. The method makes use of the state cloning concept to duplicate states in a way that separates in-links whose corresponding second-order probabilities diverge. In addition, the new method incorporates a clustering technique which determines an effcient way to assign in-links with similar second-order probabilities to the same clone. We report on experiments conducted with both real and random data and we provide a comparison with the N-gram Markov concept. The results show that the number of additional states induced by the dynamic clustering method can be controlled through a threshold parameter, and suggest that the method's performance is linear time in the size of the model.

研究の動機と目的

ユーザーのウェブナビゲーションセッションをより正確に表現するマルコフモデルの精度を向上させること。
集約されたインリンクのための標準マルコフモデルが、発散するナビゲーションパターンを捉えきれないという限界に対処すること。
2次確率の乖離に基づいて、必要に応じてのみ状態を動的にクローンする手法を開発すること。
状態拡張のためのしきい値パラメータを導入することで、モデルの複雑さを制御すること。
実データおよび合成データを用いて、N-gram マルコフモデルとの性能を評価すること。

提案手法

本手法は、インリンクの2次遷移確率に顕著な差が見られる場合に、状態をクローンすることで複製を実施する。
クラスタリング技術により、類似した2次確率を持つインリンクをグループ化し、同じ状態クローンに割り当てる。これにより、冗長性が低減される。
モデルは、追加状態の数を制御するためのしきい値パラメータを用いる。これにより、正確性と複雑さのバランスが取れる。
アプローチは、モデルのサイズに比例する線形時間複雑性を維持しており、スケーラビリティが保証される。
従来のマルコフモデルは静的状態集約を行うが、本手法は動的かつ確率に基づいた状態複製を組み込むことで拡張される。
本モデルは、実世界のウェブアクセスログおよびランダムに生成されたデータを用いて評価され、頑健性と性能が検証される。

実験結果

リサーチクエスチョン

RQ1マルコフモデルは、ウェブ利用マイニングにおける発散するユーザーのナビゲーションパターンをよりよく表現するには、どのように改善できるか？
RQ22次遷移確率の乖離に基づいて状態を動的にクローンすることは、どのような影響を及ぼすか？
RQ3類似した2次確率を持つインリンクをクラスタリングすることで、正確性を損なわずにモデルの複雑さを低減できるか？
RQ4しきい値パラメータは、モデルの正確性と状態数のトレードオフにどのように影響するか？
RQ5本手法は、N-gram マルコフモデルと比較して、性能およびスケーラビリティにおいてどの程度優れているか？

主な発見

動的クラスタリング手法によって導入される追加状態の数は、しきい値パラメータを用いて効果的に制御可能である。
本手法は、モデルのサイズに対して線形時間複雑性を達成しており、良好なスケーラビリティを示している。
実データおよびランダムデータを用いた実験により、標準のN-gram マルコフモデルに比べ、ナビゲーションパターンの捉え込み精度が向上している。
類似した2次確率を持つインリンクをクラスタリングすることで、よりコンactかつ代表的な状態モデルが得られる。
動的クローン機構により、発散するナビゲーション行動が効果的に分離され、モデルの忠実性が向上した。
本手法は、合成データおよび実世界のウェブ利用データの両方で、頑健な性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。