[論文レビュー] Quantifying Search Bias: Investigating Sources of Bias for Political Searches in Social Media
本論文は、政治的クエリに対するソーシャルメディア検索(Twitter)における入力、ランキング、出力の偏りを定量化するフレームワークを開発し、ツイート/ユーザーの政治的偏りを推定する方法を提示して、データとランキングが偏った結果をどのように共同で形成するかを評価する。
Search systems in online social media sites are frequently used to find information about ongoing events and people. For topics with multiple competing perspectives, such as political events or political candidates, bias in the top ranked results significantly shapes public opinion. However, bias does not emerge from an algorithm alone. It is important to distinguish between the bias that arises from the data that serves as the input to the ranking system and the bias that arises from the ranking system itself. In this paper, we propose a framework to quantify these distinct biases and apply this framework to politics-related queries on Twitter. We found that both the input data and the ranking system contribute significantly to produce varying amounts of bias in the search results and in different ways. We discuss the consequences of these biases and possible mechanisms to signal this bias in social media search systems' interfaces.
研究の動機と目的
- 政治的トピックに関するソーシャルメディア検索における検索バイアスの異なる源(入力・ランキング・出力)を定量化する。
- 偏りがデータ入力由来か、ランキングシステム自体由来かを区別する。
- 偏り定量化を支援するため、個々のTwitterデータ項目(ツイート)の政治的偏りを推定する方法を開発する。
- 2016年の米国政治クエリをTwitterに適用し、入力データとランキングからの偏りの寄与を測定する。
提案手法
- アイテムレベルのバイアススコアに基づく、入力バイアス、ランキングバイアス、出力バイアスの3段階のバイアス定量化フレームワークを提案する。
- 個別データ項目(ツイート)に対してバイアススコアを定義し、それを集計して入力・出力・ランキングバイアスを計算する。
- ランキングシステムをブラックボックスとして扱うオラクル風アプローチを用い、出力バイアスを OB(q,r) 、RB(q,r)=OB(q,r)−IB(q) として測定する。
- フォロー傾向から関心ベクトルを計算し、民主党/共和党の種ユーザー集合を用いてTwitterユーザー(ソースバイアス)の政治的偏りを推定する。
- ユーザーバイアスを Bias(u)=cos_sim(Iu,ID)−cos_sim(Iu,IR)(最小-最大正規化付き)として計算し、人間の判断と比較して評価する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 検索エンジンの偏りの異なる源(入力、ランキング、出力)をどのように定量化できるか?
- RQ2RQ1b: Twitterの政治的検索結果はどれだけ偏っており、その偏りのどの部分が入力データ由来で、どの部分がランキングシステム由来か?
- RQ3RQ2: 偏り定量化を支援するため、個々のTwitterアイテム(ツイート)の政治的偏りをどう推定できるか?
主な発見
- 入力データとランキングシステムの両方が、政治的クエリにおける出力バイアスに対して有意な寄与をする。
- ランキングシステムは、入力に対する偏りの極性を移動・変化させ得、候補者や政党によって異なる。
- 異なる表現のクエリは有意に異なる偏りを生み、クエリの設定感度を強調する。
- 提案されたソースバイアス推定法は、ユーザーの政治的偏りについて高いカバレッジと人間評価(AMT)との高い相関を達成する。
- 米国上院議員について、バイアス推定法はグループ間で平均97.96%のカバレッジ、平均92.23%の精度を達成。
- 自己識別された一般ユーザーについて、平均91.12%のカバレッジと85.73%の精度を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。