[논문 리뷰] Analyzing the hate and counter speech accounts on Twitter
이 논문은 트위터에서 혐오 트윗과 대응 발화에 대한 데이터셋을 구축하고, 언어학적 및 심리언어학적 특성을 분석하며, 혐오 계정과 대응 계정을 프로파일링하고, 혐오 계정과 대응 계정을 구분하기 위해 0.78 F1(78% 정확도)을 달성하는 분류기를 학습한다.
The online hate speech is proliferating with several organization and countries implementing laws to ban such harmful speech. While these restrictions might reduce the amount of such hateful content, it does so by restricting freedom of speech. Thus, an promising alternative supported by several organizations is to counter such hate speech with more speech. In this paper, We analyze hate speech and the corresponding counters (aka counterspeech) on Twitter. We perform several lexical, linguistic and psycholinguistic analysis on these user accounts and obverse that counter speakers employ several strategies depending on the target community. The hateful accounts express more negative sentiments and are more profane. We also find that the hate tweets by verified accounts have much more virality as compared to a tweet by a non-verified account. While the hate users seem to use words more about envy, hate, negative emotion, swearing terms, ugliness, the counter users use more words related to government, law, leader. We also build a supervised model for classifying the hateful and counterspeech accounts on Twitter and obtain an F-score of 0.77. We also make our dataset public to help advance the research on hate speech.
연구 동기 및 목표
- 혜소 및 Blocking 대신 Counterspeech를 대안으로 삼아 Twitter에서 혐소에 대한 연구를 동기 부여하고 탐구한다.
- 분석 및 모델링을 위한 혐오 트윗과 그에 대한 대응 발화의 데이터셋을 생성한다.
- 활동성, 어휘, 성격 및 주제 차원에서 혐오 계정과 대응 계정을 특성화한다.
- 혐오 계정과 대응 계정을 자동으로 구분하는 예측 모델을 개발한다.
- 대상 커뮤니티와 플랫폼 동태에 따라 대응 전략이 어떻게 달라지는지에 대한 인사이트를 제공한다.]
- method:[
제안 방법
- 558개의 혐오 트윗에 대한 1290개의 대응 발화를 선별하여 1239개 계정의 1290개 대응 발화와 548개의 혐오 트윗을 생산한다.
- 혐오 콘텐츠를 식별하고 대응 발화를 사전에 정의된 범주로 분류하도록 트윗에 주석을 달고, 주석자 간 일치도(metrics)를 측정한다.
- 어휘, 감정, 욕설, 심리언어학적 특징(예: Empath 카테고리, IBM Watson 성격 특성)을 추출하고 분석한다.
- 각 계정에 대해 3200개의 트윗 이력에서 TF-IDF, 프로필 지표, 어휘/정서 특징을 활용한 사용자 수준의 특징을 구성한다.
- 혐오 대 대응 발화 계정을 구분하기 위해 SVM, LR, RF, ET, XGBoost, CatBoost 등 다수의 분류기를 학습/평가하고, CatBoost를 최선으로 선택한다.
- TF-IDF, 어휘적 및 정서적 특징의 기여도를 평가하기 위한 특징 침수(ablation)를 수행한다.]
- research_questions:[
실험 결과
연구 질문
- RQ1트위터의 혐오 계정과 대응 계정 간의 어휘, 감정, 심리언어학적 차이는 무엇인가?
- RQ2대응 전략은 대상 커뮤니티(종교, 국적, 민족, 성적 지향 등)별로 어떻게 달라지는가?
- RQ3계정 수준의 특징이 혐오 계정과 대응 계정을 신뢰성 있게 구분할 수 있는가, 어떤 특징이 예측에 가장 크게 기여하는가?
- RQ4혐오와 대응 계정의 주제 관심사와 성격 특성은 어떻게 차이가 나타나는가?]
- RQ5key_findings:[
주요 결과
- 1290개의 대응 발화가 558개의 혐오 트윗에 대해 관찰되었으며, 대응 발화는 답변의 75.39%를 차지한다.
- 가장 좋은 분류기(CatBoost)는 혐오 계정과 대응 계정을 구분하는 데 78%의 정확도(F1 0.77)를 달성했고; XGBoost는 74%의 정확도를 달성했다.
- 혐오 계정은 더 오래되고 더 인기 있으며 팔로워가 더 많은 경향이 있는 반면, 대응 계정은 하루당 더 많은 친구를 갖는 경향이 있다.
- 확인 계정의 혐오 트윗은 비확인 혐오 트윗보다 확산성을 보이며, 확인 혐오 계정은 참여 지표가 현저히 더 높게 나타난다.
- 어휘 분석에서 혐오 계정은 질투, 증오, 부정 정서, 욕설의 사용이 더 많고, 반대 발화 계정은 정부, 법, 리더십과 관련된 단어를 더 많이 사용한다; Empath 및 성격 분석에서 반대 화자들은 동의성이 더 높고, 혐오 계정은 외향성이 더 높은 경향을 보인다.
- 주제 분석은 대응 발화가 정치, 뉴스, 저널리즘에 더 초점을 맞추는 반면, 혐오 계정은 인종 차별적 발화 등 주제에 집중한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.