QUICK REVIEW

[논문 리뷰] An in-depth characterisation of Bots and Humans on Twitter

Zafar Gilani, Reza Farahbakhsh|arXiv (Cornell University)|2017. 04. 05.

Spam and Phishing Detection참고 문헌 14인용 수 24

한 줄 요약

이 연구는 네 개의 팔로워 기반 인기도 그룹으로 나누어진 트위터 사용자에 대해 대규모로 인간이 분석한 분석을 수행하여 행동 지표를 기반으로 봇과 인간을 구분한다. 연구 결과 봇은 더 많은 트윗을 생성하고 리트윗과 URL 공유에 크게 의존하는 반면, 인간은 더 많은 원본 콘텐츠를 생성하고 상당히 더 많은 참여를 받는다. 낮은 참여에도 불구하고 봇은 정보 흐름의 54.59%에 영향을 미치며, 콘텐츠 확산에 있어 핵심적인 역할을 한다고 밝혀졌다.

ABSTRACT

Recent research has shown a substantial active presence of bots in online social networks (OSNs). In this paper we utilise our past work on studying bots (Stweeler) to comparatively analyse the usage and impact of bots and humans on Twitter, one of the largest OSNs in the world. We collect a large-scale Twitter dataset and define various metrics based on tweet metadata. We divide and filter the dataset in four popularity groups in terms of number of followers. Using a human annotation task we assign 'bot' and 'human' ground-truth labels to the dataset, and compare the annotations against an online bot detection tool for evaluation. We then ask a series of questions to discern important behavioural bot and human characteristics using metrics within and among four popularity groups. From the comparative analysis we draw important differences as well as surprising similarities between the two entities, thus paving the way for reliable classification of automated political infiltration, advertisement campaigns, and general bot detection.

연구 동기 및 목표

트위터에서 인기도 수준에 따라 봇과 인간 간 행동 차이를 이해하기 위해.
봇의 정보 확산 및 사회적 네트워크 역학에 미치는 영향을 평가하기 위해.
자동화된 도구의 한계를 극복하고 신뢰할 수 있는 인간 분석 기반 기준 데이터를 제공하기 위해.
유명인과 같은 고인지도를 가진 인간 사용자들 사이에서도 봇 유사 행동이 어떻게 나타나는지 탐색하기 위해.
강력하고 구분 가능한 행동적 특징을 식별하여 향후 봇 탐지 시스템을 개선하기 위해.

제안 방법

팔로워 수에 따라 네 개의 인기도 그룹으로 나누어진 대규모 트위터 데이터셋을 수집하고, 사용자를 그룹화하였다.
대표적인 계정 샘플에 대해 인간 분석 작업을 수행하여 기준 레이블('봇' 또는 '인간')을 할당하였다.
트윗 빈도, 리트윗, URL 사용, 미디어 크기, 참여도(좋아요, 리트윗) 등을 포함한 10개의 행동 지표를 정의하고 계산하였다.
인기도 그룹 간 봇과 인간의 행동 차이에 대해 통계적 가설 검정(t-검정)을 수행하여 유의미한 차이를 평가하였다.
정보 확산 흐름을 시뮬레이션하여 네트워크 전반에서 봇의 콘텐츠 확산 역할을 정량화하였다.
기존의 온라인 봇 탐지 도구와 비교하여 성능을 평가하고 탐지 오류를 식별하였다.

실험 결과

연구 질문

RQ1트위터에서 다양한 인기도 수준에서 봇과 인간의 게시 및 참여 행동은 어떻게 다를까?
RQ2인간 대비 봇은 정보 확산에 얼마나 기여하는가?
RQ3특히 인간과 봇의 행동이 융합될 수 있는 고팔로워 수준에서, 어떤 행동 패턴이 봇과 인간을 구분하는가?
RQ4리트윗, 좋아요, 친구 관계와 같은 사회적 상호작용은 봇과 인간 간에 어떻게 다를까?
RQ5유명인이나 고인지도 사용자들이 봇 유사 행동을 얼마나 보이며, 이는 봇 탐지에 어떤 함의를 갖는가?

주요 결과

봇은 인간보다 훨씬 더 많은 트윗을 생성하며, 특히 100만 명 이상의 팔로워를 가진 그룹에서 인간보다 더 자주 트윗을 올린다.
봇은 리트윗과 URL 공유에 크게 의존하며, 외부 링크가 포함된 트윗 비율이 인간보다 훨씬 높다.
높은 트윗 빈도에도 불구하고 봇은 상당히 낮은 참여도를 보인다. 모든 인기도 그룹에서 봇보다 인간은 트윗당 평균 19배, 중앙값 기준 41배 더 많은 좋아요를 받는다.
인간은 트윗당 평균 10배, 중앙값 기준 33배 더 많은 리트윗을 받으며, 봇 콘텐츠의 바이럴성과 사회적 영향력이 낮음을 시사한다.
봇은 상호적 참여도가 낮으며, 인간은 상호 친구 관계 비율이 훨씬 높고, 다른 사용자의 콘텐츠를 더 자주 좋아한다.
봇은 트위터 전체 정보 흐름의 54.59%를 담당하며, 콘텐츠 확산에 있어 상당히 중요한 역할을 하지만, 그 효과는 낮다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.