[论文解读] What's in a Session: Tracking Individual Behavior on the Web
本文提出了一种基于引荐来源的逻辑会话定义,以克服基于超时的会话分割方法的局限性。通过分析1,000名用户的4亿条HTTP请求,研究发现个体浏览行为符合对数正态分布,而聚合流量则表现出无标度特性。其主要贡献在于提出了一种稳健的会话分割算法,即使在应用超时机制时也能保持统计特性不变,揭示出真实用户导航行为需要回溯或分支,远超简单随机浏览者模型的范畴。
We examine the properties of all HTTP requests generated by a thousand undergraduates over a span of two months. Preserving user identity in the data set allows us to discover novel properties of Web traffic that directly affect models of hypertext navigation. We find that the popularity of Web sites -- the number of users who contribute to their traffic -- lacks any intrinsic mean and may be unbounded. Further, many aspects of the browsing behavior of individual users can be approximated by log-normal distributions even though their aggregate behavior is scale-free. Finally, we show that users' click streams cannot be cleanly segmented into sessions using timeouts, affecting any attempt to model hypertext navigation using statistics of individual sessions. We propose a strictly logical definition of sessions based on browsing activity as revealed by referrer URLs; a user may have several active sessions in their click stream at any one time. We demonstrate that applying a timeout to these logical sessions affects their statistics to a lesser extent than a purely timeout-based mechanism.
研究动机与目标
- 理解真实网络导航中个体用户浏览行为的本质特征。
- 挑战基于超时的会话定义在建模超文本导航中的有效性。
- 利用引荐来源URL开发一种更准确、逻辑基础更牢固的会话分割方法。
- 识别可区分人类用户与自动化程序的统计特性,以支持异常检测。
- 评估这些发现对网络流量匿名化及基于代理的建模的影响。
提出的方法
- 收集1,000名住宅用户连续两个月的原始HTTP请求日志,保留用户身份信息。
- 利用引荐来源URL定义逻辑会话,将用户在不同站点间的跳转识别为会话边界。
- 应用一种基于逻辑的会话算法,根据引荐来源模式对点击流进行分割,而非仅依赖时间。
- 在不同超时阈值下比较逻辑会话的统计特性,以评估其鲁棒性。
- 分析用户层面指标(如跳转频率、浏览速率和门户站点使用情况)的分布。
- 评估空引荐来源请求比例和会话分支因子的稳定性,以检验模型的真实性。
实验结果
研究问题
- RQ1个体用户浏览行为如何分布?其是否符合幂律或对数正态分布?
- RQ2聚合用户层面行为在多大程度上会产生站点流量中观察到的无标度分布?
- RQ3基于超时的会话定义在多大程度上能准确反映真实用户导航行为?
- RQ4门户站点在用户浏览过程中扮演何种角色?它们如何影响会话结构?
- RQ5如何仅利用HTTP请求中的引荐来源信息来定义和检测逻辑会话?
主要发现
- 以独立访客数衡量的站点受欢迎程度是无界的,且无集中趋势,证实其服从无界幂律分布。
- 个体用户浏览指标(如跳转频率、浏览速率和门户使用情况)服从对数正态分布,而非幂律分布。
- 用户聚合行为看似具有无标度特性,但这实际上是由于对数正态用户级分布的叠加所致。
- 简单的基于超时的会话定义无法捕捉真实用户导航行为,因为用户点击间隔时间缺乏规律性。
- 通过引荐来源URL定义的逻辑会话揭示出分支因子大于1,表明导航行为需要回溯或分支,远超简单随机浏览者模型的范畴。
- 在逻辑会话上应用超时机制对其统计特性的影响,小于在纯时间驱动的会话上应用超时,表明其具有更高的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。