QUICK REVIEW

[논문 리뷰] Arabic Offensive Language on Twitter: Analysis and Experiments

Hamdy Mubarak, Ammar Rashed|arXiv (Cornell University)|2020. 04. 05.

Hate Speech and Cyberbullying Detection참고 문헌 39인용 수 87

한 줄 요약

저자들은 아랍어 공격적 트윗의 가장 큰 라벨링 코퍼스를 구축하고, 언어학 및 인구통계적 패턴을 분석하며, 여러 분류기를 평가한다. AraBERT 기반 모델이 최적의 성능을 달성한다는 것을 확인했다.

ABSTRACT

Detecting offensive language on Twitter has many applications ranging from detecting/predicting bullying to measuring polarization. In this paper, we focus on building a large Arabic offensive tweet dataset. We introduce a method for building a dataset that is not biased by topic, dialect, or target. We produce the largest Arabic dataset to date with special tags for vulgarity and hate speech. We thoroughly analyze the dataset to determine which topics, dialects, and gender are most associated with offensive tweets and how Arabic speakers use offensive language. Lastly, we conduct many experiments to produce strong results (F1 = 83.2) on the dataset using SOTA techniques.

연구 동기 및 목표

Twitter에서 대규모의 방언 및 주제 편향이 없는 아랍어 공격적 언어 데이터셋을 개발한다.
트윗을 공격적, 욕설, 혐오 발언 또는 깔끔으로 주석하고 인구통계 및 언어학적 패턴을 분석한다.
강력한 아랍어 공격적 언어 탐지 기준을 확립하기 위해 다양한 표현 및 분류기를 평가한다.

제안 방법

vocative 패턴을 통한 Seedless 샘플링으로 아랍어 트witter에서 공격적 트윗을 효율적으로 수집한다.
상호 주석자 합의(Fleiss’s kappa ~0.92–0.97)로 10,000개의 트윗을 공격적, 욕설, 혐오 발언, 또는 깨끗하게 수동 주석한다.
Farasa를 이용한 토큰화, 아랍어 텍스트 정규화 및 노이즈 토큰 제거를 포함한 전처리.
어휘 특징, 정적 및 컨텍스트 임베딩(fastText, AraVec, Mazajak, BERT, AraBERT)을 이용한 실험.
SVM, fastText 분류기 및 미세 조정된 트랜스포머 모델(BERT, AraBERT)으로 분류.
평가를 위한 5-폴드 교차 검증; 모델 간 비교.

실험 결과

연구 질문

RQ1Twitter에서 대규모의 방언 및 주제 편향이 없는 아랍어 공격적 언어 데이터셋을 Twitter에서 구축할 수 있는가?
RQ2Twitter 데이터의 아랍어 공격적 언어의 언어학적 및 인구통계학적 특성은 무엇인가?
RQ3어떤 표현 및 분류 방식이 아랍어 공격적 언어 탐지에 최상의 성능을 내는가?

주요 결과

데이터셋은 10,000개의 트윗을 포함하며 그 중 1,915개는 공격적 트윗(19%), 그 중 225개는 욕설, 506개는 혐오 발언이고 8,085개는 깨끗하다.
공격적 언어 주제는 스포츠와 정치에 지배적이며, 욕설은 주로 이집트 방언을 사용하고, 71%의 욕설 트윗이 이집트 아랍어이고 13%가 걸프 아랍어이다.
남성 저자가 공격적 언어 사용을 지배한다(여성 비율 약 14% 전체; 6% 욕설; 9% 혐오 발언).
AraBERT(아랍어 특화 트랜스포머)가 실험된 모델 중 최상의 전반적 탐지 성능을 달성한다(정밀도 84.6%, 재현율 82.4%, F1 83.2%).
Mazajak 임베딩과 SVM이 매우 강력한 성능을 보이며(정밀도 88.6%, 재현율 72.4%, F1 79.7%), 일부 설정에서 BERT를 능가할 수 있다.
맥락적 임베딩은 일반적으로 정적 어휘 특징보다 우수하며 AraBERT가 BERT 기반 베이스라인을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.