[논문 리뷰] Offensive Language and Hate Speech Detection for Danish
이 논문은 레딧과 페이스북에서 수집한 데이터를 바탕으로, 공격적 언어 및 혐오 발언 탐지에 사용할 수 있는 첫 번째 대규모이고 인간이 애너테이션한 덴마크어 데이터셋을 소개한다. 다국어 분류 모델을 제안하여 덴마크어에서 공격적 언어 탐지에 대해 매크로 F1 스코어 0.70, 대상 지정된 공격적 언어 탐지에 대해 0.73을 달성하였으며, 이는 공유 언어 자원과 다국어 모델링이 덴마크어와 같이 자원이 적은 언어에서 성능을 향상시킬 수 있음을 보여준다.
The presence of offensive language on social media platforms and the implications this poses is becoming a major concern in modern society. Given the enormous amount of content created every day, automatic methods are required to detect and deal with this type of content. Until now, most of the research has focused on solving the problem for the English language, while the problem is multilingual. We construct a Danish dataset containing user-generated comments from extit{Reddit} and extit{Facebook}. It contains user generated comments from various social media platforms, and to our knowledge, it is the first of its kind. Our dataset is annotated to capture various types and target of offensive language. We develop four automatic classification systems, each designed to work for both the English and the Danish language. In the detection of offensive language in English, the best performing system achieves a macro averaged F1-score of $0.74$, and the best performing system for Danish achieves a macro averaged F1-score of $0.70$. In the detection of whether or not an offensive post is targeted, the best performing system for English achieves a macro averaged F1-score of $0.62$, while the best performing system for Danish achieves a macro averaged F1-score of $0.73$. Finally, in the detection of the target type in a targeted offensive post, the best performing system for English achieves a macro averaged F1-score of $0.56$, and the best performing system for Danish achieves a macro averaged F1-score of $0.63$. Our work for both the English and the Danish language captures the type and targets of offensive language, and present automatic methods for detecting different kinds of offensive language such as hate speech and cyberbullying.
연구 동기 및 목표
- 공격적 언어 및 혐오 발언 탐지에 사용할 수 있는 덴마크어 애너테이션 데이터셋의 부족 문제를 해결하기 위해.
- 영어와 덴마크어 양쪽에서 잘 작동하는 다국어 분류 시스템을 개발하기 위해.
- 공격적 언어 탐지에서의 어휘 왜곡 및 맥락 의존성과 같은 언어적 과제를 분석하기 위해.
- 공격적 언어 탐지, 대상 지정 탐지, 대상 유형 분류의 세 가지 하위 작업 간 모델 성능을 평가하기 위해.
- 연구 및 공동 과제를 위해 고품질의 데이터와 모델을 CC-BY 라이선스 하에 공개하기 위해.
제안 방법
- 레딧과 페이스북의 사용자 생성 댓글에서 덴마크어 데이터셋을 구축하였으며, 공격적 언어, 대상 지정, 대상 유형에 대한 표준화된 가이드라인을 사용해 애너테이션을 수행하였다.
- 다국어 BERT를 활용한 전이 학습을 적용하고, 영어 및 덴마크어에 대해 세 가지 하위 작업 모두에서 미세조정된 모델을 사용하였다.
- BERT 기반 모델과의 성능 비교를 위해 로지스틱 회귀 및 보조 Fast-BiLSTM 모델을 사용하였으며, 추가적인 특징을 통합하였다.
- 잘못 분류된 샘플에 대해 TF-IDF 및 n-gram 분석을 수행하여, 어휘 왜곡이나 키워드 과도 의존성과 같은 지속적인 실패 패턴을 식별하였다.
- 잘못 분류된 예시를 수동으로 분석하여, 특히 맥락과 왜곡된 용어 처리에서의 모델 약점 원인을 진단하였다.
- 모든 하위 작업에 대해 매크로 평균 F1 스코어를 사용해 모델 성능을 평가하였으며, 클래스 불균형과 데이터 품질은 정밀도, 재현율 및 혼동 행렬을 통해 평가하였다.
실험 결과
연구 질문
- RQ1다국어 모델이 영어에 비해 덴마크어에서 공격적 언어 탐지에 얼마나 효과적인가?
- RQ2왜곡 또는 맥락 의존적 저속어와 같은 언어 패턴이 공격적 언어 탐지에서 지속적인 오분류를 유발하는가?
- RQ3데이터 품질과 클래스 불균형이 덴마크어 공격적 언어 탐지에서 모델 성능에 얼마나 영향을 미치는가?
- RQ4BERT와 보조 특징 기반 모델을 포함한 다양한 모델 아키텍처가 대상 지정된 공격적 언어 및 대상 유형 탐지에서 어떻게 비교되는가?
- RQ5공유 언어 자원과 전이 학습이 자원이 적은 언어인 덴마크어에서 성능 향상에 기여하는가?
주요 결과
- 덴마크어에서 공격적 언어 탐지에 가장 잘 성과를 내는 모델은 매크로 평균 F1 스코어 0.70을 기록하였으며, 이는 이 특정 작업에서 영어 모델(0.74)을 초월한 성능이었다.
- 대상 지정된 공격적 언어 탐지에서는 덴마크어 모델이 매크로 F1 스코어 0.73을 기록하였고, 영어 모델(0.62)에 비해 뚜렷이 뛰어난 성능을 보였다.
- 대상 유형 분류에서는 덴마크어 모델이 매크로 F1 스코어 0.63을 기록하였고, 영어 모델의 0.56에 비해 더 나은 일반화 성능을 보였다. 이는 덴마크어에서 세분화된 하위 작업에 대해 더 우수한 성능을 의미한다.
- 모델은 'barrrysoetorobullshit'이나 'Hahhaaha lær det biiiiiaaaatch'와 같은 왜곡된 공격적 어휘를 다루는 데 어려움을 겪었으며, 종종 비공격적이라고 잘못 분류하였다.
- 모델은 맥락적 의미보다는 키워드 존재(예: 'she', 'svensken', 'pikfjæs')에 강한 편향을 보여, 공격적 언어 탐지에서 잘못된 양성 결과를 초래하였다.
- 데이터 품질 문제도 드러났으며, 일부 명백한 대상 지정된 모욕어(예: 'HillaryForPrison')가 테스트 세트에서 비대상으로 잘못 레이블링되어 평가 신뢰도에 영향을 미쳤다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.