Skip to main content
QUICK REVIEW

[논문 리뷰] Estimating the Prevalence of Deception in Online Review Communities

Myle Ott, Claire Cardie|arXiv (Cornell University)|2012. 04. 12.
Spam and Phishing Detection참고 문헌 11인용 수 29
한 줄 요약

이 논문은 경제적 신호 이론을 기반으로 하여 여섯 개의 온라인 리뷰 커뮤니티(Expedia, Hotels.com, Orbitz, Priceline, TripAdvisor, Yelp)에서 위장된 리뷰의 유통률을 추정하기 위해 생성 모델과 기만 식별기의 조합을 제안한다. 신호 이론에 따르면, 기만율은 플랫폼 간에 유의미하게 다를 뿐 아니라, 게재 비용에 의해 영향을 받으며, 높은 신호 비용(예: 신규 리뷰어 제외)은 기만의 유통률과 증가율을 낮추는 효과가 있어, 기만을 완화하는 타당한 전략이 된다.

ABSTRACT

Consumers' purchase decisions are increasingly influenced by user-generated online reviews. Accordingly, there has been growing concern about the potential for posting "deceptive opinion spam" -- fictitious reviews that have been deliberately written to sound authentic, to deceive the reader. But while this practice has received considerable public attention and concern, relatively little is known about the actual prevalence, or rate, of deception in online review communities, and less still about the factors that influence it. We propose a generative model of deception which, in conjunction with a deception classifier, we use to explore the prevalence of deception in six popular online review communities: Expedia, Hotels.com, Orbitz, Priceline, TripAdvisor, and Yelp. We additionally propose a theoretical model of online reviews based on economic signaling theory, in which consumer reviews diminish the inherent information asymmetry between consumers and producers, by acting as a signal to a product's true, unknown quality. We find that deceptive opinion spam is a growing problem overall, but with different growth rates across communities. These rates, we argue, are driven by the different signaling costs associated with deception for each review community, e.g., posting requirements. When measures are taken to increase signaling cost, e.g., filtering reviews written by first-time reviewers, deception prevalence is effectively reduced.

연구 동기 및 목표

  • 주요 온라인 리뷰 커뮤니티에서 기만적인 평가 스팸의 실제 유통률을 추정하는 것.
  • 특히 신호 비용이라는 구조적 요인이 플랫폼 간 기만율에 미치는 영향을 조사하는 것.
  • 자기 보고나 골드 스탠다드 애너테이션에 의존하지 않고 기만 유통률을 추정하는 방법을 개발하는 것.
  • 리뷰 게재 비용을 높임으로써 기만을 효과적으로 줄일 수 있는지 평가하는 것.
  • 이러한 결과가 인간 의사소통에서 기만 빈도에 관한 심리학적 논의에 미치는 영향을 탐색하는 것.

제안 방법

  • 노이즈가 있는 분류기 출력을 입력으로 사용하여, 코퍼스 내 가짜 리뷰의 잠재 비율을 추정하는 기만의 생성 모델을 구축한다.
  • 기만적인 리뷰를 Amazon Mechanical Turk에서 생성한 데이터로 훈련한 분류기가 리뷰를 기만적일 가능성이 높거나 진실된 것으로 분류한다.
  • 분류기의 불확실성을 고려하여 기만 유통률에 대한 사후 분포를 추론하기 위해 길버트 샘플링(Gibbs sampling)을 사용한다.
  • 이론적 모델링은 경제적 신호 이론을 기반으로 하며, '신호 비용'을 게재 요구사항과 노출 이익의 함수로 정의한다.
  • 온라인 리뷰를 제품 품질에 대한 신호로 간주하며, 높은 신호 비용은 기만적 행동을 억제한다.
  • 예를 들어 첫 번째 또는 두 번째 리뷰어의 리뷰를 걸러내는 것과 같이, 신호 비용을 높임으로써 기만율에 미치는 영향을 평가하는 프레임워크를 구축한다.

실험 결과

연구 질문

  • RQ1주요 온라인 리뷰 커뮤니티 전반에서 기만적인 평가 스팸의 실제 유통률은 얼마인가?
  • RQ2게재 요구사항과 노출 이익의 차이(즉, 신호 비용)가 플랫폼 간 기만율에 어떻게 영향을 미치는가?
  • RQ3리뷰 게재 비용을 높임으로써 기만의 유통률과 증가율을 줄일 수 있는가?
  • RQ4분류기의 노이즈가 기만 유통률 추정의 신뢰성에 얼마나 큰 영향을 미치는가?
  • RQ5이러한 결과는 인간 의사소통에서 기만의 빈도에 관한 광범위한 심리학적 논의와 어떻게 관련이 있는가?

주요 결과

  • 기만적인 평가 스팸은 전반적으로 증가 추세이지만, 여섯 개의 연구 대상 리뷰 커뮤니티 간에 유의미한 차이를 보이는 증가율을 보인다.
  • 신호 비용이 낮은 커뮤니티—예를 들어, 게재 요구사항이 적고 노출 비용이 높은 곳—은 더 높은 기만율을 보인다.
  • 첫 번째 또는 두 번째 리뷰어의 리뷰를 걸러내는 것은 현재의 기만 유통률과 기만 증가율을 효과적으로 줄인다.
  • 연구는 신호 비용을 높임으로써 기만적 행동을 억제하는 것이 타당한 전략임을 확인했지만, 새로운 기만자가 이를 회피하거나 적응할 가능성은 여전히 존재한다.
  • 결과는 기만 유통률이 게재 비용과 노출 이익에 연결된 경제적 인센티브에 의해 이끌린다는 가설을 지지한다.
  • 이 프레임워크는 자기 보고나 자료 기반 애너테이션에 의존하지 않는 새로운 방법을 제공하며, 온라인 상거래와 심리학 연구에 모두 의미 있는 영향을 미친다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.