Skip to main content
QUICK REVIEW

[논문 리뷰] Battling the Internet Water Army: Detection of Hidden Paid Posters

Cheng Chen, Kui Wu|arXiv (Cornell University)|2011. 11. 18.
Spam and Phishing Detection참고 문헌 14인용 수 52
한 줄 요약

이 논문은 실세계 웹 데이터의 행동적 및 의미적 분석을 통해 은밀한 유료 온라인 포스터, 즉 '인터넷 수군'을 식별하는 하이브리드 탐지 시스템을 제안한다. 비의미적 행동 특징과 SVM 분류기 내의 의미적 유사도 분석을 결합함으로써, 소후(Sohu)에서 확보한 실재 데이터셋에서 95.24% 정밀도, 73.17% 재현율, 82.76% F-측정치, 88.79% 정확도를 달성하여 탐지 성능을 크게 향상시켰다.

ABSTRACT

We initiate a systematic study to help distinguish a special group of online users, called hidden paid posters, or termed "Internet water army" in China, from the legitimate ones. On the Internet, the paid posters represent a new type of online job opportunity. They get paid for posting comments and new threads or articles on different online communities and websites for some hidden purposes, e.g., to influence the opinion of other people towards certain social events or business markets. Though an interesting strategy in business marketing, paid posters may create a significant negative effect on the online communities, since the information from paid posters is usually not trustworthy. When two competitive companies hire paid posters to post fake news or negative comments about each other, normal online users may feel overwhelmed and find it difficult to put any trust in the information they acquire from the Internet. In this paper, we thoroughly investigate the behavioral pattern of online paid posters based on real-world trace data. We design and validate a new detection mechanism, using both non-semantic analysis and semantic analysis, to identify potential online paid posters. Our test results with real-world datasets show a very promising performance.

연구 동기 및 목표

  • 중국에서 '인터넷 수군'으로 알려진 은밀한 유료 온라인 포스터를 체계적으로 연구하고 탐지하기 위해, 공공의견을 조작하기 위해 협력적으로 게시하는 자들을 식별한다.
  • 실세계 트레이스 데이터를 사용하여 유료 포스터의 조직적 구조와 행동 패턴을 식별하고 검증한다.
  • 비의미적 행동 특징과 의미 분석을 융합한 탐지 기반을 개발하여 정확도를 향상시킨다.
  • 주요 중국 웹사이트에서 확보한 실재 데이터셋을 대상으로 탐지 시스템의 효과성을 평가한다.
  • 온라인 영향력 작전 및 스팸 탐지 분야의 향후 연구를 위한 기반을 마련한다.

제안 방법

  • 유명한 중국 웹사이트에서 실세계 데이터셋을 확보하였으며, 특히 의심스러운 유료 포스터 참여가 있는 고조도 사회 이벤트 기간 동안의 사용자 활동에 집중하였다.
  • 유료 포스터와 관련된 이질적인 패턴을 식별하기 위해 게시 빈도, 시간, 계정 연수 등의 비의미적 행동 패턴을 분석하였다.
  • 다수의 게시물 간에 거의 동일하거나 최소한의 편집이 가해진 댓글을 탐지하기 위해 의미적 유사도 분석 방법을 설계하였다. 이는 협력적 유료 활동의 특징이다.
  • 의미적 특징을 지지벡터기계(SVM) 분류기에 통합하여 탐지 성능을 향상시켰다.
  • 다단계 평가 과정을 사용하여 의미 분석을 추가하기 전과 이후의 정확도를 비교함으로써 그 영향을 정량화하였다.
  • 시스템을 소후(Sohu) 데이터셋에서 검증하였으며, 의미 특징의 포함으로 인해 뚜렷한 성능 향상이 나타났다.

실험 결과

연구 질문

  • RQ1온라인 유료 포스터의 고유한 행동 패턴은 무엇이며, 정상 사용자와 어떻게 다를까?
  • RQ2비의미적 행동 분석만으로는 유료 포스터 탐지에 얼마나 효과적인가?
  • RQ3댓글 내용의 의미 분석이 탐지 정확도를 얼마나 향상시키는가?
  • RQ4행동적 특징과 의미적 특징을 융합한 하이브리드 모델이 단일 특징만을 사용하는 모델보다 우월한가?
  • RQ5유료 포스터 네트워크의 조직적 구조는 무엇이며, 탐지 전략에 어떤 영향을 미치는가?

주요 결과

  • SVM 분류기에 의미 분석을 통합함으로써 탐지 성능이 크게 향상되었으며, F-측정치는 75.6%에서 82.76%로 상승하였다.
  • 최종 탐지 모델은 소후(Sohu) 데이터셋에서 95.24% 정밀도, 73.17% 재현율, 82.76% F-측정치, 88.79% 정확도를 달성하였다.
  • 유료 포스터는 종종 미세한 수정이 가해진 거의 동일한 댓글을 반복적으로 게시하는 경향이 있으며, 이는 의미 분석을 통해 효과적으로 탐지할 수 있다.
  • 비의미적 행동 특징만으로도 강력한 기준 성능을 제공하지만, 의미 분석이 미세한 협력적 게시 행동을 구분하는 데 핵심적인 역할을 하였다.
  • 연구는 다수의 웹사이트를 통해 일관된 게시 패턴을 보이는 조직적이고 은밀한 유료 포스터 네트워크의 존재를 확인하였다.
  • 결과적으로 의미적 유사도는 협력적 온라인 선전 활동을 탐지하는 데 강력하고 신뢰할 수 있는 특징임을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.