QUICK REVIEW

[論文レビュー] Estimating the Prevalence of Deception in Online Review Communities

Myle Ott, Claire Cardie|arXiv (Cornell University)|Apr 12, 2012

Spam and Phishing Detection参考文献 11被引用数 29

ひとこと要約

本稿では、経済的信号理論を用いて、6つのオンラインレビュー投稿コミュニティ（Expedia、Hotels.com、Orbitz、Priceline、TripAdvisor、Yelp）におけるだましの発生割合を推定する生成モデルと詐欺分類器を組み合わせた手法を提案する。信号理論に基づき、発生割合はプラットフォームによって顕著に異なることが判明し、投稿コスト（例：初回レビュー者を除外するなど）が高いと、だましの発生割合と増加率が低下する。これは、効果的な緩和戦略であることが示された。

ABSTRACT

Consumers' purchase decisions are increasingly influenced by user-generated online reviews. Accordingly, there has been growing concern about the potential for posting "deceptive opinion spam" -- fictitious reviews that have been deliberately written to sound authentic, to deceive the reader. But while this practice has received considerable public attention and concern, relatively little is known about the actual prevalence, or rate, of deception in online review communities, and less still about the factors that influence it. We propose a generative model of deception which, in conjunction with a deception classifier, we use to explore the prevalence of deception in six popular online review communities: Expedia, Hotels.com, Orbitz, Priceline, TripAdvisor, and Yelp. We additionally propose a theoretical model of online reviews based on economic signaling theory, in which consumer reviews diminish the inherent information asymmetry between consumers and producers, by acting as a signal to a product's true, unknown quality. We find that deceptive opinion spam is a growing problem overall, but with different growth rates across communities. These rates, we argue, are driven by the different signaling costs associated with deception for each review community, e.g., posting requirements. When measures are taken to increase signaling cost, e.g., filtering reviews written by first-time reviewers, deception prevalence is effectively reduced.

研究の動機と目的

主要なオンラインレビュー投稿コミュニティにおけるだましの意見スパムの実際の発生割合を推定すること。
構造的要因、特に信号コストが、プラットフォーム間でだましの発生率に与える影響を調査すること。
自己報告やゴールドスタンダードのアノテーションに依存せずに、だましの発生割合を推定する手法を開発すること。
レビュー投稿のコストを引き上げることで、だましの発生を効果的に低減できるかどうかを評価すること。
これらの発見が、人間のコミュニケーションにおけるだましの頻度に関する心理的議論に与える示唆を明らかにすること。

提案手法

ノイズの多い分類器の出力を入力として、コーパス内の偽のレビューの潜在的割合を推定するための、だましの生成モデルを構築する。
Amazon Mechanical Turkで作成された偽のレビューを学習済みの分類器が、レビューを「だましの可能性あり」と「真実の可能性あり」に分類する。
Gibbsサンプリングを用いて、分類器の不確実性を考慮したうえで、だましの発生割合の事後分布を推定する。
理論的モデリングは経済的信号理論を基盤とし、「信号コスト」を投稿要件と露出の利益の関数として定義する。
オンラインレビューを製品の質を示す信号とみなす。信号コストが高いと、だましの行動が抑制される。
新規または2回目のレビュー者からのレビューをフィルタリングするなど、信号コストを引き上げた場合の、だましの発生率への影響をフレームワークで評価する。

実験結果

リサーチクエスチョン

RQ1主要なオンラインレビュー投稿コミュニティにおける、だましの意見スパムの実際の発生割合はどの程度か？
RQ2投稿要件や露出の利益（すなわち、信号コスト）の違いが、プラットフォーム間でのだましの発生率にどのように影響するか？
RQ3レビュー投稿のコストを引き上げることで、だましの発生割合と増加率を両方とも低減できるか？
RQ4分類器のノイズが、だましの発生割合推定の信頼性にどの程度影響を及えるか？
RQ5これらの発見は、人間のコミュニケーションにおけるだましの頻度に関する広範な心理的議論とどのように関連するか？

主な発見

全体として、だましの意見スパムは増加傾向にあるが、6つの調査対象コミュニティ間で著しい異なる増加率を示している。
信号コストが低いコミュニティ（例：投稿要件が少なく、露出の利益が高い）では、だましの発生率が高くなる。
新規または2回目のレビュー者からのレビューをフィルタリングすることで、だましの現在の発生割合と増加率の両方を効果的に低減できる。
本研究では、信号コストを引き上げることが、だましの行動を抑える有効な戦略であることを確認したが、新たなだまし屋が適応する可能性は依然として残っている。
発生割合が投稿コストと露出の利益に結びついた経済的インcentiveに駆られているという仮説を、結果が支持した。
本フレームワークは、自己報告に依存しない、画期的なだまし発生割合推定手法を提供しており、オンライン商業活動および心理的研究の両者に意味を持つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。