[논문 리뷰] A Graph Neural Network based approach for detecting Suspicious Users on Online Social Media.
이 논문은 그래프 신경망(GNN) 기반 접근법을 제안하며, 특히 그래프 컬러이션 네트워크(GCN)를 사용하여 온라인 소셜 미디어에서 루머를 퍼뜨릴 가능성이 높은 의심스러운 사용자를 탐지한다. PHEME 루머 트윗 데이터셋을 의심스러운 사용자 데이터셋으로 변환함으로써, 최대 F1-Score 0.864와 AUC-ROC 0.720을 달성하여 SVM, 랜덤 포레스트, LSTM 기준선보다 뛰어난 성능을 보였다.
Online Social Media platforms (such as Twitter and Facebook) are extensively used for spreading the news to a wider public effortlessly at a rapid pace. However, now a days these platforms are also used with an aim of spreading rumors and fake news to a large audience in a short time span that can cause panic, fear, and financial loss to society. Thus, it is important to detect and control these rumors before it spreads to the masses. One way to control the spread of these rumors is by identifying possible suspicious users who are often involved in spreading the rumors. Our basic assumption is that the users who are often involved in spreading rumors are more likely to be suspicious in contrast to the users whose involvement in spreading rumors are less. This is due to the fact that sometimes, users may posts the rumor tweets by accident. In this paper, we use PHEME rumor tweet dataset which contains rumor and non-rumor tweets information on five incidents, that is, i) Charlie hebdo, ii)German wings crash, iii)Ottawa shooting, iv)Sydney siege, and v)Ferguson. We transform this rumor tweets dataset into suspicious users dataset before leveraging Graph Neural Network (GNN) based approach for identifying suspicious users. Specifically, we explore Graph Convolutional Network (GCN),which is a type of GNN, for identifying suspicious users and then we compare GCN results with the other three approaches which act as baseline approaches: SVM, RF and LSTM based deep learning architecture. Extensive experiments performed on real-world dataset, where we achieve up to 0.864 value for F1-Score and 0.720 value for AUC ROC, shows the effectiveness of GNN based approach for identifying suspicious users.
연구 동기 및 목표
- 트위터 및 페이스북과 같은 온라인 소셜 미디어 플랫폼에서 빠르게 퍼지는 루머와 가짜 뉴스의 증가하는 문제를 다루기 위해.
- 의도적으로 루머를 퍼뜨리는 데 자주 관여하는 의심스러운 사용자를 식별하고, 우연히 루머를 공유하는 사용자와 구분하기 위해.
- 사용자 간의 구조적 관계를 그래프 기반 모델링을 통해 활용하여 기존 방법을 향상시키기 위해.
- 기존의 기계학습 및 딥러닝 기준선과 비교하여 그래프 컬러이션 네트워크(GCN)가 의심스러운 사용자를 탐지하는 데 얼마나 효과적인지 평가하기 위해.
제안 방법
- 루머 확산과 관련된 사용자 수준의 활동을 집계하여, 다섯 가지 실제 사건에서 발생한 트윗을 포함하는 PHEME 루머 트윗 데이터셋을 의심스러운 사용자 데이터셋으로 변환한다.
- 노드가 사용자를, 엣지가 재트윗, 응답 또는 언급을 나타내는 사용자 상호작용 그래프를 구축하여 사회적 네트워크 구조를 캡처한다.
- 그래프 내 이웃 노드의 특징을 집계하여 사용자의 저차원 표현을 학습하기 위해 그래프 컬러이션 네트워크(GCN)를 적용한다.
- 사용자의 네트워크 내 구조적 및 행동 패턴을 기반으로 의심스러운 사용자 또는 비의심스러운 사용자로 분류하기 위해 GCN 모델을 훈련한다.
- 지원 벡터 머신(SVM), 랜덤 포레스트(RF), 장기 숏텀 기억(LSTM) 네트워크와 같은 세 가지 기준선 모델과 GCN 성능을 비교한다.
- 실제 세계 데이터셋에서 모델 성능을 평가하기 위해 표준 평가 지표인 F1-Score와 AUC-ROC를 사용한다.
실험 결과
연구 질문
- RQ1그래프 신경망(GNN)은 소셜 미디어 플랫폼에서 루머를 퍼뜨리는 데 관여한 의심스러운 사용자를 효과적으로 식별할 수 있는가?
- RQ2SVM, RF, LSTM와 같은 전통적인 기계학습 및 딥러닝 모델과 비교할 때 GCN의 성능은 의심스러운 사용자 탐지에서 어떻게 나타나는가?
- RQ3사용자 상호작용을 그래프로 모델링하는 것이 비그래프 기반 접근법과 비교해 루머 퍼뜨리는 사용자 탐지에 얼마나 기여하는가?
- RQ4루머 확산 맥락에서 네트워크의 구조적 특징이 의심스러운 사용자 분류에 미치는 영향은 어떠한가?
주요 결과
- GCN 기반 접근법은 최대 F1-Score 0.864를 달성하여 소셜 미디어에서 의심스러운 사용자를 식별하는 데 강력한 성능을 보였다.
- 모델은 AUC-ROC 점수 0.720을 기록하여 의심스러운 사용자와 비의심스러운 사용자 간의 구분 능력이 양호함을 나타냈다.
- PHEME 데이터셋에서 GCN 모델은 SVM, 랜덤 포레스트, LSTM를 포함한 모든 세 가지 기준선 모델보다 평가 지표에서 뛰어난 성능을 보였다.
- 결과는 사용자 상호작용을 그래프로 모델링함으로써 루머 확산에 관여하는 사용자 탐지 능력이 향상됨을 확인했다.
- 연구는 자주 루머를 퍼뜨리는 사용자들이 루머 확산 맥락에서 고유한 네트워크 수준의 패턴을 보이며, 이러한 패턴은 GNN에 의해 효과적으로 포착될 수 있음을 검증했다.
- 루머 트윗 데이터셋을 사용자 수준의 의심스러운 사용자 데이터셋으로 변환하는 것이 GNN 모델의 훈련 및 평가에 효과적이었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.