QUICK REVIEW

[논문 리뷰] An Unsupervised Approach to Detect Spam Campaigns that Use Botnets on Twitter

Zhouhan Chen, Devika Subramanian|arXiv (Cornell University)|2018. 04. 14.

Spam and Phishing Detection참고 문헌 8인용 수 43

한 줄 요약

비지도학습의 실시간 시스템이 Twitter 봇넷에 의해 주도되는 스팸 캠페인을 탐지하고, 임베디드 URL이 포함된 중복 콘텐츠를 트윗하는 계정을 식별하며, 맬웨어/봇넷 데이터베이스를 구축하고, 데이터 세트를 필터링하기 위한 공개 API를 제공합니다.

ABSTRACT

In recent years, Twitter has seen a proliferation of automated accounts or bots that send spam, offer clickbait, compromise security using malware, and attempt to skew public opinion. Previous research estimates that around 9% to 17% of Twitter accounts are bots contributing to between 16% to 56% of tweets on the medium. This paper introduces an unsupervised approach to detect Twitter spam campaigns in real-time. The bot groups we detect tweet duplicate content with shortened embedded URLs over extended periods of time. Our experiments with the detection protocol reveal that bots consistently account for 10% to 50% of tweets generated from 7 popular URL shortening services on Twitter. More importantly, we discover that bots using shortened URLs are connected to large scale spam campaigns that control thousands of domains. There appear to be two distinct mechanisms used to control bot groups and we investigate both in this paper. Our detection system runs 24/7 and actively collects bots involved in spam campaigns and adds them to an evolving database of malicious bots. We make our database of detected bots available for query through a REST API so others can filter tweets from malicious bots to get high quality Twitter datasets for analysis.

연구 동기 및 목표

URL이 포함된 트윗을 통해 스팸과 맬웨어를 퍼뜨리는 Twitter 봇의 확산에 동기를 부여하고 이를 다룬다.
레이블이 없는 데이터로도 완전한 비지도학습 실시간 탐지 시스템을 개발하여 봇 그룹과 스팸 캠페인을 식별한다.
공개 API를 통해 악성 봇의 지속적인 수집과 위협 인텔리전스의 확산을 가능하게 한다.

제안 방법

URL을 포함하는 트윗의 실시간 이상 트렌드 모니터링을 통해 상위-k 접근법으로 트렌딩 네트워크 위치(netlocs)를 식별한다.
가장 인기 있는 URL 단축 서비스에서 트윗을 수집하고 새로운 URL에 대해 봇넷 탐지를 실행하는 작업 스케줄러.
Crawler, 중복 필터, 겹침 기반 봇 식별, 비지도 클러스터링으로 구성된 4부 구성을 갖춘 봇 탐지기를 통해 텍스트 유사성이 높은 봇 그룹을 형성한다.
Selenium을 사용한 URL 해석기를 통해 피싱이나 리다이렉트에 숨겨진 악성 행위를 특징화한다.
WHOIS를 통해 등록자 이메일과 악성 URL을 연결하는 스팸 캠페인 분류기를 통해 등록자를 봇넷에 매핑하고 대규모 캠페인을 식별한다.

실험 결과

연구 질문

RQ1레이블링된 학습 데이터 없이도 비지도학습 실시간 시스템이 조정된 Twitter 스팸 캠페인을 탐지할 수 있는가?
RQ2짧은 URL을 포함해 중복 콘텐츠를 트윗하는 봇 그룹이 등록자에 의해 제어되는 대규모 스팸 캠페인과 상관관계가 있는가?
RQ3스패머가 Twitter 봇넷을 제어하는 메커니즘은 무엇이며, 기존 방법보다 더 빨리 이를 감지할 수 있는가?
RQ4도메인 등록 정보를 봇넷 식별에 매핑하는 것이 대규모 캠페인 식별에 얼마나 효과적인가?

주요 결과

URL 단축 서비스의 계정을 포함한 봇이 시간에 따라 10%에서 50%의 비율로 중복 콘텐츠에 임베디드 URL을 트윗한다.
2017년 9월 10일에서 2017년 11월 14일 사이, 11,048개의 봇넷 뒤에 848개의 고유한 의심 등록 이메일과 185,922개의 계정이 확인되었다.
시스템은 수천 개의 도메인을 등록하고 프록시 URL과 피싱 사이트를 사용하는 대규모 캠페인을 드러낸다.
전통적 봇넷(대량의 도메인/계정 생성)과 Twitter 앱을 통한 합법 계정 탈취의 두 가지 봇 제어 메커니즘이 관찰된다.
등록자 이름이 수천 개의 도메인과 그룹 내 높은 봇 비율과 연계된 큰 규모의 세 캠페인에서 상당한 활동을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.