[论文解读] Measuring Personalization of Web Search
本文提出一种通过对比受控用户配置文件的搜索结果,测量网络搜索引擎个性化程度的方法,发现平均有11.7%的Google结果和15.8%的Bing结果存在个性化,主要由登录状态和IP位置驱动。其他用户属性对个性化影响极小,凸显了搜索算法在透明度方面的不足。
Web search is an integral part of our daily lives. Recently, there has been a trend of personalization in Web search, where different users receive different results for the same search query. The increasing level of personalization is leading to concerns about Filter Bubble effects, where certain users are simply unable to access information that the search engines' algorithm decides is irrelevant. Despite these concerns, there has been little quantification of the extent of personalization in Web search today, or the user attributes that cause it. In light of this situation, we make three contributions. First, we develop a methodology for measuring personalization in Web search results. While conceptually simple, there are numerous details that our methodology must handle in order to accurately attribute differences in search results to personalization. Second, we apply our methodology to 200 users on Google Web Search and 100 users on Bing. We find that, on average, 11.7% of results show differences due to personalization on Google, while 15.8% of results are personalized on Bing, but that this varies widely by search query and by result ranking. Third, we investigate the user features used to personalize on Google Web Search and Bing. Surprisingly, we only find measurable personalization as a result of searching with a logged in account and the IP address of the searching user. Our results are a first step towards understanding the extent and effects of personalization on Web search engines today.
研究动机与目标
- 量化现代网络搜索引擎(如Google和Bing)个性化程度。
- 识别哪些用户属性会引发可测量的搜索结果个性化。
- 开发一种稳健、开源的个性化测量方法,有效控制索引、分发和A/B测试带来的噪声。
- 评估嵌入在搜索结果页中的新闻结果是否个性化,鉴于已知新闻门户存在个性化现象。
- 为未来研究个性化趋势及其社会影响(如过滤气泡效应)提供基准。
提出的方法
- 通过Amazon Mechanical Turk招募200名Google和100名Bing用户,进行受控实验,确保在时间和地理位置上一致地执行查询。
- 通过对比控制组(匿名)和实验组(配置文件修改)账户的搜索结果,隔离个性化影响。
- 使用命令行工具和自动化爬取技术,确保结果收集的一致性并减少人为偏差。
- 应用Jaccard指数和Kendall Tau相关系数等统计指标,比较结果集并检测个性化现象。
- 通过同步查询时间并使用多个控制点,控制时间上的索引变化、分布式基础设施不一致性和A/B测试的影响。
- 将DuckDuckGo作为非个性化基线,验证该方法对个性化现象的敏感性。
实验结果
研究问题
- RQ1在多样化用户群体中,Google和Bing的搜索结果个性化程度如何?
- RQ2哪些用户特定属性(如登录状态、地理位置、搜索历史或设备类型)会导致搜索结果的显著差异?
- RQ3即使其他结果未个性化,搜索结果页中的嵌入式新闻结果是否也个性化?
- RQ4个性化程度在不同类型的查询中(如政治类、新闻类或本地查询)有何差异?
- RQ5是否能通过标准化方法可靠地检测并量化网络搜索中的个性化现象,即使存在系统噪声?
主要发现
- 平均而言,11.7%的Google网页搜索结果和15.8%的Bing结果因个性化而存在差异,且在排名靠后的位置中差异率更高。
- 引发可测量个性化的最主要因素是用户登录状态和用户设备的地理位置(IP地址)。
- 未观察到其他属性(如搜索历史、点击历史、浏览器选择、操作系统或配置文件信息)带来显著个性化影响。
- Google和Bing搜索结果中的嵌入式新闻结果未被个性化,所有实验条件下Jaccard指数和Kendall Tau相关系数值均接近1。
- DuckDuckGo未表现出任何可测量的个性化,作为非个性化搜索引擎的有效基线。
- 该方法成功将个性化与索引延迟和A/B测试等噪声源分离,实现了对结果差异的可靠测量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。