[논문 리뷰] Characterizing and Detecting Hateful Users on Twitter
본 연구는 사용자 중심의 그래프 기반 방식으로 혐오 트윗 사용자들을 특징화하며, 리트윗 그래프에 대한 반지도 학습 노드 임베딩이 컨텐츠 기반 방법보다 혐오 및 차단된 계정의 탐지에서 더 나은 성능을 보임을 보여준다.
Most current approaches to characterize and detect hate speech focus on extit{content} posted in Online Social Networks. They face shortcomings to collect and annotate hateful speech due to the incompleteness and noisiness of OSN text and the subjectivity of hate speech. These limitations are often aided with constraints that oversimplify the problem, such as considering only tweets containing hate-related words. In this work we partially address these issues by shifting the focus towards extit{users}. We develop and employ a robust methodology to collect and annotate hateful users which does not depend directly on lexicon and where the users are annotated given their entire profile. This results in a sample of Twitter's retweet graph containing $100,386$ users, out of which $4,972$ were annotated. We also collect the users who were banned in the three months that followed the data collection. We show that hateful users differ from normal ones in terms of their activity patterns, word usage and as well as network structure. We obtain similar results comparing the neighbors of hateful vs. neighbors of normal users and also suspended users vs. active users, increasing the robustness of our analysis. We observe that hateful users are densely connected, and thus formulate the hate speech detection problem as a task of semi-supervised learning over a graph, exploiting the network of connections on Twitter. We find that a node embedding algorithm, which exploits the graph structure, outperforms content-based approaches for the detection of both hateful ($95\%$ AUC vs $88\%$ AUC) and suspended users ($93\%$ AUC vs $88\%$ AUC). Altogether, we present a user-centric view of hate speech, paving the way for better detection and understanding of this relevant and challenging issue.
연구 동기 및 목표
- 어휘사전이 많은 샘플링에 의존하지 않고 혐오 사용자들을 수집하고 주석을 다는 프로세스 개발.
- 활동성, 어휘, 네트워크 구조 측면에서 혐오 사용자와 정상 사용자를 구분해 특성화한다.
- 탐지 개선을 위해 이웃관계(neighborhood) 및 차단 신호를 혐오 콘텐츠의 대리 변수로 탐구한다.
- 사용자 수준 특징을 활용한 그래프 기반 반지도 학습을 혐오 발화 탐지에 대해 평가한다.
제안 방법
- Twitter의 리트윗 그래프에서 무작위 워크(random-walk) 기반 샘플을 구성하여 100,386명의 사용자와 각 사용자당 최대 200개의 트윗을 포함한다.
- 혐오 관련 어휘 사전의 단어를 사용한 사용자를 시드로 식별하고 그래프 전체에 신념을 확산시키는 확산(difusion) 과정을 적용한다.
- 확산 유도 신념에 따라층화 샘플링(stratified sampling)을 사용하여 혐오 여부로 크라우드소싱 주석용으로 4,972명의 사용자를 서브샘플링한다.
- 전체 사용자 프로필의 맥락을 활용하여 크라우드소싱으로 사용자를 혐오 또는 정상으로 주석 달한다.
- 혐오, 정상, 이웃, 차단/활성 사용자의 활동성, 어휘, 네트워크 중심성 간 차이를 분석한다.
- 사용자 특징과 GloVe 기반 텍스트 특징을 사용한 전통 모델과 비교하여 노드 임베딩 기반 탐지(GraphSage)를 평가한다.
실험 결과
연구 질문
- RQ1혐오 사용자는 활동성, 어휘, 네트워크 구조에서 정상 사용자와 차이가 있는가?
- RQ2이웃( neighborhood ) 및 차단 신호가 트위터의 혐오 발화의 대리 변수로 작용할 수 있는가?
- RQ3그래프 기반의 반지도 학습 접근법이 컨텐츠만 활용한 방법에 비해 혐오 및 차단된 사용자의 탐지를 향상시키는가?
- RQ4트위터의 가이드라인 변화가 혐오/차단 계정의 차단과 어떤 관련이 있는가?
- RQ5리트윗 네트워크 구조가 콘텐츠 특징을 넘어 혐오 발화 탐지에 정보가 되는가?
주요 결과
- 혐오 사용자는 정상 사용자보다 더 활동적이고, 하루에 더 많이 팔로우하며 계정이 더 새롭다.
- 혐오 사용자는 리트윗 네트워크에서 정상 사용자보다 밀접하게 연결되어 있으며 더 중심적이다.
- 혐오 사용자는 간단하지 않은 어휘를 사용하며, 사랑과 남성성과 관련된 단어가 더 많고 혐오 및 분노와 관련된 단어는 정상에 비해 덜 사용한다.
- 사용자 특징과 GloVe를 이용한 리트윗 그래프의 노드 임베딩이 최고 성능을 달성하며(혐오 탐지에서 AUC 최대 95.4, 차단 탐지에서 93.3).
- 그래프SAGE 기반의 반지도 임베딩은 콘텐츠 특징만 사용하는 GradBoost 및 AdaBoost를 두 탐지 작업에서 능가한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.