[논문 리뷰] RTbust: Exploiting Temporal Patterns for Botnet Detection on Twitter
RTbust는 VAE 기반 특징 추출기와 HDBSCAN 클러스터링을 사용한 무감독 분석으로 Twitter에서 재게시봇넷을 탐지하며 높은 F1 점수를 달성하고 봇넷을 발견합니다.
Within OSNs, many of our supposedly online friends may instead be fake accounts called social bots, part of large groups that purposely re-share targeted content. Here, we study retweeting behaviors on Twitter, with the ultimate goal of detecting retweeting social bots. We collect a dataset of 10M retweets. We design a novel visualization that we leverage to highlight benign and malicious patterns of retweeting activity. In this way, we uncover a 'normal' retweeting pattern that is peculiar of human-operated accounts, and 3 suspicious patterns related to bot activities. Then, we propose a bot detection technique that stems from the previous exploration of retweeting behaviors. Our technique, called Retweet-Buster (RTbust), leverages unsupervised feature extraction and clustering. An LSTM autoencoder converts the retweet time series into compact and informative latent feature vectors, which are then clustered with a hierarchical density-based algorithm. Accounts belonging to large clusters characterized by malicious retweeting patterns are labeled as bots. RTbust obtains excellent detection results, with F1 = 0.87, whereas competitors achieve F1 < 0.76. Finally, we apply RTbust to a large dataset of retweets, uncovering 2 previously unknown active botnets with hundreds of accounts.
연구 동기 및 목표
- OSNs에서 진화하는 봇의 정교함으로 인해 그룹 기반의 무감독 봇 탐지의 필요성을 제시한다.
- 인간과 봇 활동을 구분하기 위해 재게시 시간 패턴의 분석을 제안한다.
- RTbust를 개발하여 정보를 많이 담은 특징을 자동으로 추출하고 봇넷 식별을 위해 사용자를 클러스터링한다.
제안 방법
- 각 사용자의 재게시 활동을 기준 시작 시간에 대한 재게시 타임스탬프의 시계열로 표현한다.
- 희소성을 줄이고 활동 신호를 보존하기 위해 수정된 런-길이 인코딩으로 시계열을 압축한다.
- LSTM 인코더를 갖춘 변분 오토인코더로 압축된 시계열에서 고정 길이의 잠재 특징을 추출한다.
- HDBSCAN으로 잠재 공간에서 사용자를 클러스터링하여 밀집한 그룹을 봇넷으로 식별하고 노이즈를 합법 계정으로 간주한다.
- 주석이 달린 봇/사람들을 실제 정답으로 사용하여 baselines 및 최첨단 기술과 비교 평가한다.
실험 결과
연구 질문
- RQ1재게시 타이밍의 무감독 그룹 기반 분석이 전체 타임라인이나 그래프에 의존하지 않고도 봇넷을 신뢰성 있게 식별할 수 있는가?
- RQ2다른 특징 추출 방법(VAE, PCA, TICA)이 봇넷 탐지 성능에 미치는 영향은 무엇인가?
- RQ3RTbust가 감독된 탐지기와 다른 무감독 접근법에 비해 F1, 정밀도, 재현율 및 기타 지표 측면에서 어떤 차이가 있는가?
주요 결과
- RTbust는 봇 탐지에서 F1 = 0.87을 달성하여 F1이 0.76 이하인 경쟁자보다 우수하다.
- VAE 기반 특징이 PCA 및 TICA에 비해 더 우수한 클러스터링 및 탐지 성능을 보인다.
- VAE로부터 8개의 잠재 특징만으로도 클러스터링 품질이 안정되고 탐지 성능이 최대화된다.
- RTbust는 밀집 클러스터에서 계정을 봇으로 라벨링하고 비클러스터 계정을 합법으로 다루어 협력 봇 그룹을 식별한다.
- 이 방법은 재게시 타임스택만 의존하여 전체 타임라인이나 사회 연결 그래프 없이도 확장 가능한 분석을 가능하게 한다.
- 이 접근법은 큰 재게시 데이터 세트에서 두 개의 이전에 알려지지 않은 활성 봇넷을 밝혀낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.