[논문 리뷰] Measuring Personalization of Web Search
이 논문은 제어된 사용자 프로필 간 검색 결과를 비교함으로써 웹 검색 엔진의 개인화 수준을 측정하는 방법론을 제안한다. 그 결과, 구글의 평균 11.7%, 빙의 평균 15.8%의 검색 결과가 개인화되어 있음을 밝혀냈으며, 주로 로그인 상태와 IP 위치에 의해 영향을 받는다. 다른 사용자 속성으로서의 개인화 영향은 최소한이었으며, 검색 알고리즘의 투명성 부족을 드러낸다.
Web search is an integral part of our daily lives. Recently, there has been a trend of personalization in Web search, where different users receive different results for the same search query. The increasing level of personalization is leading to concerns about Filter Bubble effects, where certain users are simply unable to access information that the search engines' algorithm decides is irrelevant. Despite these concerns, there has been little quantification of the extent of personalization in Web search today, or the user attributes that cause it. In light of this situation, we make three contributions. First, we develop a methodology for measuring personalization in Web search results. While conceptually simple, there are numerous details that our methodology must handle in order to accurately attribute differences in search results to personalization. Second, we apply our methodology to 200 users on Google Web Search and 100 users on Bing. We find that, on average, 11.7% of results show differences due to personalization on Google, while 15.8% of results are personalized on Bing, but that this varies widely by search query and by result ranking. Third, we investigate the user features used to personalize on Google Web Search and Bing. Surprisingly, we only find measurable personalization as a result of searching with a logged in account and the IP address of the searching user. Our results are a first step towards understanding the extent and effects of personalization on Web search engines today.
연구 동기 및 목표
- 현대 웹 검색 엔진인 구글과 빙에서 개인화가 얼마나 광범위하게 이루어지는지 정량화하는 것.
- 검색 결과에 측정 가능한 개인화를 유도하는 사용자 속성(예: 로그인 상태, 위치, 검색 기록 등)을 특정하는 것.
- 색인, 배포, A/B 테스트 등의 노이즈 요인을 통제할 수 있는 강력하고 오픈소스 기반의 개인화 측정 방법론을 개발하는 것.
- 기존 뉴스 포털에서 개인화가 알려져 있는 만큼, 검색 페이지에 통합된 뉴스 결과가 개인화되어 있는지 평가하는 것.
- 개인화 추세와 그 사회적 영향(예: 필터 버블 효과)에 대한 향후 연구를 위한 기초 자료를 제공하는 것.
제안 방법
- 아마존 메카니컬 터크를 통해 모집한 200명의 구글 사용자와 100명의 빙 사용자를 대상으로, 시간과 위치를 일관되게 유지한 제어 실험.
- 통제(익명) 계정과 실험(프로필 수정) 계정 간의 검색 결과를 비교하여 개인화 효과를 분리.
- 명령줄 도구와 자동 크롤링을 활용해 결과 수집 과정에서의 인간 편향을 최소화하고 일관성을 확보.
- 결과 집합 간 비교를 위해 재현성 지수(Jaccard Index)와 켄달 타우 계수(Kendall Tau coefficient)와 같은 통계적 측정 도구를 적용해 개인화 여부를 탐지.
- 색인 변화, 분산 인프라의 이질성, A/B 테스트 등의 영향을 줄이기 위해 쿼리 실행 시간을 동기화하고 다중 통제 지점을 활용.
- 개인화가 일어나지 않는 기준으로서 덱덕고를 포함시켜 방법론의 개인화 감지 능력을 검증.
실험 결과
연구 질문
- RQ1다양한 사용자 기반에서 구글과 빙의 검색 결과가 얼마나 개인화되어 있는가?
- RQ2로그인 상태, 위치, 검색 기록, 기기 유형 등의 사용자 고유 속성이 검색 결과에 측정 가능한 차이를 유도하는가?
- RQ3검색 결과 페이지에 통합된 뉴스 결과는 다른 결과와는 별개로 개인화되어 있는가?
- RQ4정치, 뉴스, 지역 쿼리 등의 다양한 쿼리 유형에서 개인화 수준은 어떻게 달라지는가?
- RQ5시스템 노이즈가 존재하더라도 표준화된 방법론이 웹 검색에서 개인화를 신뢰성 있게 탐지하고 측정할 수 있는가?
주요 결과
- 평균적으로 구글 웹 검색 결과의 11.7%와 빙 결과의 15.8%가 개인화로 인해 차이가 발생하며, 순위가 낮을수록 이 비율이 더 높게 관찰된다.
- 측정 가능한 개인화를 유도하는 주요 요인은 사용자 계정에 로그인되어 있는지 여부와 사용자 기기의 지리적 위치(IP 주소)이다.
- 검색 기록, 클릭 기록, 브라우저 선택, 운영 체제, 프로필 정보 등의 다른 속성으로서의 개인화는 유의미한 영향을 보이지 않았다.
- 구글과 빙 검색 결과에 포함된 통합 뉴스 결과는 개인화되어 있지 않으며, 모든 실험 조건에서 재현성 지수와 켄달 타우 계수가 약 1에 가까운 것으로 나타났다.
- 덱덕고는 측정 가능한 개인화가 전혀 없었으며, 개인화가 일어나지 않는 검색 엔진의 타당한 기준으로 기능했다.
- 색인 지연과 A/B 테스트 등의 노이즈 요인에서 개인화를 효과적으로 분리하여 결과 차이를 신뢰성 있게 측정할 수 있었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.