QUICK REVIEW

[논문 리뷰] Entropy-based Classification of 'Retweeting' Activity on Twitter

Rumi Ghosh, Tawan Surachawala|arXiv (Cornell University)|2011. 06. 02.

Spam and Phishing Detection참고 문헌 17인용 수 61

한 줄 요약

이 논문은 시간 간격 및 사용자 엔트로피 특징을 활용한 엔트로피 기반, 내용에 의존하지 않는 방법을 제안하여 트위터에서의 재트윗 활동을 분류한다. 이 방법은 뉴스 확산, 광고, 캠페인, 로봇 활동, 기생 광고의 다섯 가지 명확히 구분되는 활동 유형을 성공적으로 식별하여, 내용이나 언어에 의존하지 않고도 확장 가능한 스팸 탐지 및 트렌드 분석을 가능하게 한다.

ABSTRACT

Twitter is used for a variety of reasons, including information dissemination, marketing, political organizing and to spread propaganda, spamming, promotion, conversations, and so on. Characterizing these activities and categorizing associated user generated content is a challenging task. We present a information-theoretic approach to classification of user activity on Twitter. We focus on tweets that contain embedded URLs and study their collective `retweeting' dynamics. We identify two features, time-interval and user entropy, which we use to classify retweeting activity. We achieve good separation of different activities using just these two features and are able to categorize content based on the collective user response it generates. We have identified five distinct categories of retweeting activity on Twitter: automatic/robotic activity, newsworthy information dissemination, advertising and promotion, campaigns, and parasitic advertisement. In the course of our investigations, we have shown how Twitter can be exploited for promotional and spam-like activities. The content-independent, entropy-based activity classification method is computationally efficient, scalable and robust to sampling and missing data. It has many applications, including automatic spam-detection, trend identification, trust management, user-modeling, social search and content classification on online social media.

연구 동기 및 목표

스팸, 선전, 유기적 정보 공유와 같은 다양한 복잡한 사용자 활동을 분류하는 데 도전하는 것.
집단적 사용자 반응 동역학을 활용하여 내용 및 언어에 의존하지 않는 방법을 개발하는 것.
트위터에서 인간 기반 재트윗 활동과 자동화되거나 봇 기반 활동을 식별하고 구분하는 것.
온라인 소셜 미디어 플랫폼에서 스팸 탐지, 신뢰 관리, 콘텐츠 분류와 같은 실용적 응용을 가능하게 하는 것.

제안 방법

콘텐츠의 확산과 재트윗 식별을 위해 URL을 표식으로 사용하며, 'RT'를 포함하거나 원본 게시자에게 따르는지 여부와는 무관하게 적용한다.
연속적인 재트윗 간의 시간 간격과 관여한 고유 사용자 수의 두 분포를 통해 재트윗 동역학을 특성화한다.
샤논 엔트로피를 적용하여 시간 간격 분포와 사용자 분포의 불확실성 또는 무작위성 정도를 정량화한다.
이 두 분포의 엔트로피를 핵심 특징으로 삼아 재트윗 행동을 명확히 구분되는 카테고리로 분류한다.
콘텐츠, 언어, 명시적 사용자 평가에 의존하지 않고 관측된 사용자 반응 패tern에만 의존한다.
결과로 도출된 특징 공간을 활용해 활동을 의미 있는, 경험적으로 검증된 카테고리로 분리하는 분류기 학습

실험 결과

연구 질문

RQ1트위터에서 다양한 유형의 사용자 활동을 구분하기 위해 재트윗 동역학을 어떻게 정량적으로 특성화할 수 있는가?
RQ2엔트로피 기반 특징이 인간 기반 재트윗 활동과 자동화되거나 봇 기반 활동을 효과적으로 분리할 수 있는가?
RQ3내용에 의존하지 않고 동역학 기반 특징을 사용할 경우, 재트윗 행동을 의미 있는 카테고리로 분류할 수 있는 정도는 어느 정도인가?
RQ4뉴스, 광고, 스팸과 같은 활동들 간에 시간 간격 및 사용자 분포의 엔트로피 값은 어떻게 다를까?
RQ5이 방법은 기존의 콘텐츠 기반 필터를 피할 수 있는 고도로 발전된 스팸 및 홍보 캠페인을 탐지할 수 있는가?

주요 결과

엔트로피 기반 방법은 재트윗 활동의 다섯 가지 명확히 구분되는 카테고리—뉴스 확산, 광고 및 홍보, 캠페인, 자동화/로봇 활동, 기생 광고—를 성공적으로 분리한다.
자동화된 재트윗 활동의 경우 시간 간격 엔트로피가 상당히 낮아 인간 기반 활동과 명확히 구분된다.
사용자 엔트로피는 관여한 사용자의 다양성을 효과적으로 포착하여 넓은 범위의 뉴스 확산과 타겟팅되거나 반복적인 캠페인 활동을 구분한다.
이 방법은 표본 추출 및 누락 데이터에 대해 강건하며, 콘텐츠 분석이나 언어 처리가 필요하지 않다.
모델에 의해 스팸 유사로 식별된 몇몇 계정들이 나중에 트위터에서 정지된 것으로 확인되어, 이 방법의 실제 세계 적용 능력이 검증되었다.
이 방법은 언어나 콘텐츠 유형에 관계없이 뉴스성 콘텐츠를 자동으로 탐지하고, 저가치 또는 홍보성 콘텐츠와 높은 정확도로 분리할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.