[논문 리뷰] Quantifying Search Bias: Investigating Sources of Bias for Political Searches in Social Media
본 논문은 정치적 질의에 대해 소셜 미디어 검색(Twitter)에서 입력 편향, 랭킹 편향, 출력 편향을 정량화하는 프레임워크를 개발하고, 데이터와 랭킹이 공동으로 편향된 결과를 어떻게 형성하는지 평가하기 위해 tweet/user의 정치적 편향을 추론하는 방법을 제시한다.
Search systems in online social media sites are frequently used to find information about ongoing events and people. For topics with multiple competing perspectives, such as political events or political candidates, bias in the top ranked results significantly shapes public opinion. However, bias does not emerge from an algorithm alone. It is important to distinguish between the bias that arises from the data that serves as the input to the ranking system and the bias that arises from the ranking system itself. In this paper, we propose a framework to quantify these distinct biases and apply this framework to politics-related queries on Twitter. We found that both the input data and the ranking system contribute significantly to produce varying amounts of bias in the search results and in different ways. We discuss the consequences of these biases and possible mechanisms to signal this bias in social media search systems' interfaces.
연구 동기 및 목표
- 소셜 미디어 검색에서 정치 주제에 대한 입력(데이터), 랭킹, 출력의 서로 다른 검색 편향 원천을 정량화한다.
- 편향이 데이터 입력에서 비롯되는지, 아니면 랭킹 시스템 자체에서 비롯되는지 구분한다.
- 편향 정량화를 지원하기 위해 개별 Twitter 데이터 항목(tweet)의 정치적 편향을 추론하는 방법을 개발한다.
- 2016년 미국 정치 질의에 Twitter 프레임워크를 적용하여 입력 데이터와 랭킹에서의 편향 기여도를 측정한다.
제안 방법
- 항목 수준 편향 점수를 기반으로 입력 편향, 랭킹 편향, 출력 편향의 세 단계 프레임워크를 제안한다.
- 개별 데이터 항목(tweet)에 대한 편향 점수를 정의하고 이를 모아 입력, 출력, 랭킹 편향을 계산한다.
- 랭킹 시스템을 블랙박스로 다루는 오라클과 유사한 접근을 사용하여 출력 편향을 OB(q,r)로 측정하고 RB(q,r)=OB(q,r)−IB(q)로 정의한다.
- 팔로우 패턴에서 관심 벡터를 계산하고 시드 Democrat/Republican 사용자 세트를 사용하여 Twitter 사용자(소스 편향)의 정치적 편향을 추론한다.
- 사용자 편향을 Bias(u)=cos_sim(Iu,ID)−cos_sim(Iu,IR)로 정의하고 최소-최대 정규화를 적용하며 인간 판단과 비교 평가한다.]
- research_questions:["RQ1: 검색 엔진 편향의 서로 다른 원천(input, ranking, output)을 어떻게 정량화할 수 있는가?","RQ1b: Twitter의 정치적 검색 결과는 얼마나 편향되어 있으며, 그 중 입력 데이터와 랭킹 시스템 중 어느 부분에서 기인하는가?","RQ2: 편향 정량화를 지원하기 위해 개별 Twitter 항목(tweet)의 정치적 편향을 어떻게 추론할 수 있는가?]
- key_findings:["입력 데이터와 랭킹 시스템이 모두 정치 질의에 대한 Twitter 검색의 출력 편향에 상당히 기여한다.","랭킹 시스템은 입력에 비해 편향의 극성을 이동시키거나 바꿀 수 있으며 후보 및 당에 따라 다르게 나타난다.","다르게 표현된 질의는 현저하게 다른 편향을 유발하며 질의 작성에 대한 민감성을 강조한다.","제안된 소스 편향 추론 방법은 사용자들의 정치적 편향에 대해 높은 커버리지와 인간 판단(AMT)과의 강한 상관관계를 달성한다.","미국 상원의원에 대해 편향 추론 방법은 그룹 간 평균 커버리지 97.96% 및 평균 정확도 92.23%를 달성한다.","자칭 일반 사용자에 대해 평균 커버리지 91.12% 및 평균 정확도 85.73%를 달성한다."],
- table_headers: []
- table_rows: []
실험 결과
연구 질문
- RQ1RQ1: How can we quantify the different sources of search engine bias (input, ranking, output)?
- RQ2RQ1b: How biased are political search results on Twitter, and what portion comes from input data vs. the ranking system?
- RQ3RQ2: How can we infer the political bias of individual Twitter items (tweets) to support bias quantification?
주요 결과
- Both input data and the ranking system contribute significantly to output bias in Twitter search for political queries.
- The ranking system can shift or alter the polarity of bias relative to the input, varying by candidate and party.
- Differently phrased queries yield significantly different biases, highlighting sensitivity to query formulation.
- The proposed source-bias inference method achieves high coverage and strong correlation with human judgments (AMT) for political bias of users.
- For US senators, the bias inference method achieves 97.96% average coverage and 92.23% average accuracy across groups.
- For self-identified common users, the method achieves 91.12% coverage and 85.73% accuracy on average.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.