Skip to main content
QUICK REVIEW

[論文レビュー] Measuring Personalization of Web Search

Anikó Hannák, Piotr Sapieżyński|arXiv (Cornell University)|Jun 15, 2017
Web Data Mining and Analysis被引用数 4
ひとこと要約

本稿では、制御されたユーザープロファイル間での検索結果を比較することにより、Web検索エンジンにおけるパーソナライゼーションを測定する手法を提案している。その結果、Googleの平均で11.7%、Bingの平均で15.8%の検索結果がパーソナライズされていることが判明し、主にログイン状態とIPアドレスによる位置情報が要因である。他のユーザーデータ要因によるパーソナライゼーションは最小限にとどまり、検索アルゴリズムにおける透明性の欠如が浮き彫りになった。

ABSTRACT

Web search is an integral part of our daily lives. Recently, there has been a trend of personalization in Web search, where different users receive different results for the same search query. The increasing level of personalization is leading to concerns about Filter Bubble effects, where certain users are simply unable to access information that the search engines' algorithm decides is irrelevant. Despite these concerns, there has been little quantification of the extent of personalization in Web search today, or the user attributes that cause it. In light of this situation, we make three contributions. First, we develop a methodology for measuring personalization in Web search results. While conceptually simple, there are numerous details that our methodology must handle in order to accurately attribute differences in search results to personalization. Second, we apply our methodology to 200 users on Google Web Search and 100 users on Bing. We find that, on average, 11.7% of results show differences due to personalization on Google, while 15.8% of results are personalized on Bing, but that this varies widely by search query and by result ranking. Third, we investigate the user features used to personalize on Google Web Search and Bing. Surprisingly, we only find measurable personalization as a result of searching with a logged in account and the IP address of the searching user. Our results are a first step towards understanding the extent and effects of personalization on Web search engines today.

研究の動機と目的

  • 現代のWeb検索エンジン、たとえばGoogleやBingにおけるパーソナライゼーションの程度を定量化すること。
  • 検索結果に顕著なパーソナライゼーションを引き起こすユーザーデータ要因を同定すること。
  • インdeックスの変化、配布のばらつき、A/Bテストなどのノイズ要因を制御できる、堅牢でオープンソースのパーソナライゼーション測定手法を開発すること。
  • 既知のパーソナライゼーションが見られる専用ニュースポータルとは対照的に、検索結果ページに埋め込まれたニュース結果がパーソナライズされているかどうかを評価すること。
  • フィルターバブル効果のような社会的影響を含めた、パーソナライゼーションのトレンドとその影響に関する今後の研究の基準を提供すること。

提案手法

  • Amazon Mechanical Turkを介して募集した200名のGoogleおよび100名のBingユーザーを用いた制御実験。時間的・空間的要因を一定に保ち、一貫したクエリ実行を実施。
  • 匿名(コントロール)アカウントとプロファイルを変更した(実験的)アカウントの間で検索結果を比較し、パーソナライゼーション効果を分離。
  • コマンドラインツールと自動クローリングを活用することで、結果収集における一貫性を確保し、人為的バイアスを低減。
  • JaccardインデックスとKendall Tau係数といった統計的指標を用いて、結果セットの比較とパーソナライゼーションの検出を実施。
  • インデックスの時間的変化、分散インfraの不一致、A/Bテストの影響を制御するため、クエリ実行タイミングを同期し、複数のコントロールポイントを設けた。
  • パーソナライゼーションに感受性を示すかどうかを検証するため、DuckDuckGoを非パーソナライズ基準として含めた。

実験結果

リサーチクエスチョン

  • RQ1多様なユーザーベースにおいて、GoogleおよびBingの検索結果はどの程度パーソナライズされているか?
  • RQ2ログイン状態、位置情報、検索履歴、デバイスタイプなどのユーザーデータ要因の中で、検索結果に顕著な差を生じさせるものは何か?
  • RQ3検索結果ページに埋め込まれたニュース結果は、他の結果がパーソナライズされていなくてもパーソナライズされているか?
  • RQ4政治的、ニュース系、ローカル系などの異なるクエリタイプにおいて、パーソナライゼーションの度合いはどのように変化するか?
  • RQ5システムノイズが存在する中でも、標準化された手法がWeb検索におけるパーソナライゼーションを信頼性高く検出・定量化できるか?

主な発見

  • 平均して、Google Web検索の11.7%、Bingの15.8%の結果にパーソナライゼーションによる差が認められ、順位が低い結果でより高い割合が見られた。
  • 顕著なパーソナライゼーションを引き起こす主な要因は、ユーザーアカウントへのログイン状態と、デバイスの地理的位置(IPアドレス)である。
  • 検索履歴、クリック履歴、ブラウザ選択、オペレーティングシステム、プロファイル情報といった他の属性からは、顕著なパーソナライゼーションは観察されなかった。
  • GoogleおよびBingの検索結果に埋め込まれたニュース結果は、すべての実験条件においてJaccardインデックスとKendall Tau係数の値が1に近いことから、パーソナライズされていないことが裏付けられた。
  • DuckDuckGoでは、いかなる顕著なパーソナライゼーションも観察されず、非パーソナライズ検索エンジンの有効な基準として機能した。
  • 本手法は、インデックス遅延やA/Bテストなどのノイズ要因からパーソナライゼーションを的確に分離でき、結果の差の信頼性ある測定が可能であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。