QUICK REVIEW

[論文レビュー] Iterative Filtering for a Dynamical Reputation System

Cristobald de Kerchove, Paul Van Dooren|ArXiv.org|Nov 26, 2007

Spam and Phishing Detection参考文献 11被引用数 19

ひとこと要約

本稿では、非線形かつスパarsityに配慮したモデルを用いて、アイテムのレピュテーションとレーティング者の信頼性ウェイトを同時に計算する反復フィルタリングアルゴリズムを提案する。この手法は、データを破棄せずにスパムマーカーやランダムレーティング者を強力に低減するが、一意の解へとスーパー線形収束する。1反復あたり線形計算量であり、悪意ある入力に対しても強い実験的耐性を示す。

ABSTRACT

The paper introduces a novel iterative method that assigns a reputation to n + m items: n raters and m objects. Each rater evaluates a subset of objects leading to a n x m rating matrix with a certain sparsity pattern. From this rating matrix we give a nonlinear formula to define the reputation of raters and objects. We also provide an iterative algorithm that superlinearly converges to the unique vector of reputations and this for any rating matrix. In contrast to classical outliers detection, no evaluation is discarded in this method but each one is taken into account with different weights for the reputation of the objects. The complexity of one iteration step is linear in the number of evaluations, making our algorithm efficient for large data set. Experiments show good robustness of the reputation of the objects against cheaters and spammers and good detection properties of cheaters and spammers.

研究の動機と目的

大規模レーティングシステムにおいて、レーティング者が信頼できないか悪意ある場合に、アイテムに信頼できるレピュテーションを割り当てる課題に対処すること。
従来の外れ値検出とは異なり、いかなる評価データも破棄せずに、アイテムのレピュテーションとレーティング者の信頼性を同時に推定する手法を開発すること。
レーティング行列の任意のスパarsityパターンですら、悪意あるレーティング者を含んでも、一意の解へ収束することを保証すること。
大規模データセットに適した、1反復あたり線形計算量を持つスケーラブルで効率的なアルゴリズムを提供すること。
信念の乖離に基づく信頼スコアにより、不一致するレーティング者を低減することで、協調フィルタリングおよび信頼システムの耐性を向上させること。

提案手法

本手法は、レーティング者の評価と現在のアイテムレピュテーションとの間の信念の乖離に基づく非線形式を用いてレピュテーションをモデル化する。
各エントリ T_ij = c_j - d_i で定義される信頼行列 T を導入し、d_i をレーティング者 i の信念の乖離とする。これにより、レーティング者の信頼性に応じて評価を重み付ける。
固定点反復を用いて、反復的にレピュテーションと信頼スコアを改善し、一意の解へスーパー線形収束する。
信念の乖離 d_i は、レーティング者自身の評価と現在のアイテムレピュテーションとの L2 距離として計算され、不一致の度合いを測る指標として機能する。
乖離に対する感度を制御するための柔軟なパラメータ c_j を用い、均等重み付けと攻撃的外れ値検出の間の補間を可能にする。
初期レーティング行列や任意のスパarsityパターンに対しても収束が保証され、計算量は評価数に対して線形である。

実験結果

リサーチクエスチョン

RQ1悪意あるまたは一貫性のないレーティング者に対して、信頼性の高いレピュテーションとレーティング者の信頼性を同時に推定する方法は何か？
RQ2データを破棄せずに、一意の解へとスーパー線形収束する反復的アルゴリズムを設計できるか？
RQ3スパムマーカーやランダムレーティング者が導入された場合、この手法がアイテムレピュテーションの正確性をどの程度保つのか？
RQ41ステップ法と比較して、複数反復が誠実なレーティング者と外れ値の分離をどの程度改善するか？
RQ5指数関数的または逆関数的などの異なる信頼関数が、最終的なレピュテーションスコアと収束特性に与える影響は何か？

主な発見

反復フィルタリングアルゴリズムは、スパarsityや初期条件にかかわらず、任意のレーティング行列に対して一意の解へスーパー線形収束する。
収束後、アイテムのレピュテーションはスパムに対して著しく頑健になる。アルゴリズムを用いた場合、スパム前後での1-ノルム差は267であるのに対し、単純平均を用いた場合は638に達する。
1反復では誠実なレーティング者と悪意あるレーティング者の区別が不十分である。図6に示すように、収束が信頼性の高い外れ値検出に不可欠である。
スパムマーカーやランダムレーティング者は高い信念の乖離により自然に低減され、その信頼スコア T_ij は0に近づく。
複数反復を通じて、誠実なレーティング者と外れ値が明確に分離され、図6の密度プロットに示されるように、信頼スコア分布の明確化が進む。
本手法はスケーラブルであり、1反復あたりの処理時間は評価数に対して線形であるため、大規模システムに適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。