QUICK REVIEW

[論文レビュー] What's in a Session: Tracking Individual Behavior on the Web

Mark Meiss, John F. Duncan|arXiv (Cornell University)|Mar 27, 2010

Complex Network Analysis Techniques参考文献 21被引用数 33

ひとこと要約

本稿では、タイムアウトに基づくセッション分割の限界を克服するため、論理的でリファラ依存のウェブセッション定義を提案する。4億件のHTTPリクエストを1,000人のユーザーから収集した分析により、個々のブラウジング行動は対数正規分布に従うことが判明した一方で、集計されたトラフィックはスケールフリー特性を示した。主な貢献は、タイムアウトが適用されても統計的性質を保持する、堅牢なセッションセグメンテーションアルゴリズムの開発であり、実際のユーザーのナビゲーションは単純なランダムサーファーモデルをはるかに超えて、バックトラッキングや分岐を必要としていることが明らかになった。

ABSTRACT

We examine the properties of all HTTP requests generated by a thousand undergraduates over a span of two months. Preserving user identity in the data set allows us to discover novel properties of Web traffic that directly affect models of hypertext navigation. We find that the popularity of Web sites -- the number of users who contribute to their traffic -- lacks any intrinsic mean and may be unbounded. Further, many aspects of the browsing behavior of individual users can be approximated by log-normal distributions even though their aggregate behavior is scale-free. Finally, we show that users' click streams cannot be cleanly segmented into sessions using timeouts, affecting any attempt to model hypertext navigation using statistics of individual sessions. We propose a strictly logical definition of sessions based on browsing activity as revealed by referrer URLs; a user may have several active sessions in their click stream at any one time. We demonstrate that applying a timeout to these logical sessions affects their statistics to a lesser extent than a purely timeout-based mechanism.

研究の動機と目的

現実世界のウェブナビゲーションにおける個々のユーザーのブラウジング行動の本質を解明すること。
ハイパーテキストナビゲーションのモデル化において、タイムアウトに基づくセッション定義の妥当性に疑問を呈すること。
リファラURLを用いた論理的で根拠に基づいたセッションセグメンテーション手法を構築すること。
異常検出のための、人間のユーザーと自動化されたエージェントを区別する統計的性質を同定すること。
これらの発見が、ウェブトラフィックの匿名化およびエージェントベースのモデリングに与える影響を評価すること。

提案手法

2か月間にわたり、1,000人の住宅ユーザーの生HTTPリクエストログを収集し、ユーザーの識別子を保持する。
リファラURLを用いて論理的セッションを定義し、サイト間の遷移をセッション境界として特定する。
時間要因のみに依存するのではなく、リファラパターンに基づいてクリックストリームをセグメンテーションする論理的セッションアルゴリズムを適用する。
さまざまなタイムアウト閾値における論理的セッションの統計的性質を比較し、その頑健性を評価する。
ジャンプ頻度、ブラウジングレート、ポータル利用などのユーザー単位の指標の分布を分析する。
空のリファラリクエストの割合とセッション分岐要因の安定性を評価し、モデルの現実性を検証する。

実験結果

リサーチクエスチョン

RQ1個々のユーザーのブラウジング行動はどのように分布しており、パワーローまたは対数正規分布に従うか？
RQ2ユーザー単位の行動を集計することで、サイトトラフィックに観察されるスケールフリー分布がどの程度生成されるか？
RQ3タイムアウトに基づくセッション定義は、実際のユーザーのナビゲーション行動を正確に反映できるか？
RQ4ポータルサイトはユーザーのブラウジングをどのように仲介しており、セッション構造にどのような影響を与えるか？
RQ5HTTPリクエストからのリファラ情報のみを用いて、論理的セッションをどのように定義・検出できるか？

主な発見

ユニークな訪問者数で測定されるサイトの人気度は、上限がなく、中心傾向を示さないため、無限大のパワーロー分布であることが確認された。
ジャンプ頻度、ブラウジングレート、ポータル利用などの個々のユーザーのブラウジング指標は、パワーロー分布ではなく、対数正規分布に従う。
ユーザーの集計行動はスケールフリーに見えるが、これは対数正規分布に従うユーザー単位の分布を集計することで生じる。
単純なタイムアウトに基づくセッション定義では、実際のユーザーのナビゲーションを捉えられず、クリック間隔に規則性が見られないことが判明した。
リファラURLを用いた論理的セッションは、1より大きい分岐要因を示しており、ナビゲーションが単純なランダムサーファーモデルをはるかに超えて、バックトラッキングや分岐を必要としていることが明らかになった。
論理的セッションにタイムアウトを適用しても、純粋に時間ベースのセッションに適用するよりも統計的性質への影響が小さく、より頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。