[논문 리뷰] Offensive Language Identification in Greek
이 논문은 OGTD를 제시하며 공격적 언어 식별을 위한 첫 번째 그리스어 주석 데이터셋이고, 여러 고전 및 딥 러닝 모델을 비교한다. LSTM/GRU with Attention이 OGTD v1.0에서 매크로-F1 약 0.89로 최고를 기록한다.
As offensive language has become a rising issue for online communities and social media platforms, researchers have been investigating ways of coping with abusive content and developing systems to detect its different types: cyberbullying, hate speech, aggression, etc. With a few notable exceptions, most research on this topic so far has dealt with English. This is mostly due to the availability of language resources for English. To address this shortcoming, this paper presents the first Greek annotated dataset for offensive language identification: the Offensive Greek Tweet Dataset (OGTD). OGTD is a manually annotated dataset containing 4,779 posts from Twitter annotated as offensive and not offensive. Along with a detailed description of the dataset, we evaluate several computational models trained and tested on this data.
연구 동기 및 목표
- OGTD를 소개한다, Twitter에서의 공격적 언어 탐색을 위한 최초의 그리스어 주석 데이터셋.
- 데이터셋에 대한 상세한 설명, 주석 지침 및 교차 주석 신뢰도 제공.
- OGTD에 대해 고전 ML 및 딥 러닝 모델의 벤치마크를 수행하여 기준선을 확립하고 효과적인 접근법을 식별.
- 그리스어를 위한 TF-IDF 단일그램/이그램 및 구문 형식(품사 태그, 의존 태그)과 같은 특징 세트를 탐구.
- 교차-언어 및 그리스어 NLP 자원 개발과 향후 데이터셋 개선에 대한 시사점을 논의.
제안 방법
- 그리스 관련 키워드와 욕설을 사용하여 Twitter API를 통해 그리스어 트윗을 수집하고 다양한 공격적 언어 코퍼스를 구축한다.
- 소문자화 및 비강세 표준화로 전처리; URL, 이모지 및 @USER 멘션 제거; 트윗 중복 제거.
- 그리스어 지침을 사용하여 4,779개의 트윗을 Offensive/Not Offensive/Spam으로 주석; 주석자 간 일치도 Cohen’s kappa를 계산.
- TF-IDF unigram/bigram 특징과 선형 SVM, RBF SVM, SGDC, 다항 NB, 베르누이 NB 등 다양한 분류기로 다수의 모델을 학습 및 평가.
- 품사 태그, 의존성 관계 등의 구문 특징과 그리스어 임베딩을 딥 러닝 모델에 도입; 다국어 BERT와 비교.
- 딥 러닝 모델에는 Pooled GRU, Attention이 있는 Stack LSTM, Attention이 있는 LSTM/GRU, 2D Convolution, Capsule이 있는 GRU, Capsule 및 Attention이 있는 LSTM, 그리고 BERT 기반 접근법들이 포함된다.
실험 결과
연구 질문
- RQ1그리스어 공격적 언어 데이터세트를 만들고 신뢰할 수 있는 교차 주석자 간 일치를 얻어 주석할 수 있는가?
- RQ2어떤 특징 세트(TF-IDF 단일그램/이그램, POS/의존성, 의미 임베딩)가 그리스어 공격적 언어 탐지에서 가장 좋은 성능을 내는가?
- RQ3OGTD 작업에서 고전 ML 모델과 딥 러닝 모델은 어떻게 비교되는가?
- RQ4이 작업에 대해 그리스어 단어 임베딩과 다국어 BERT의 사용 영향은 무엇인가?
- RQ5OGTD를 v2.0으로 확장하고 OffensEval 2020과 같은 교차 언어 및 공유 작업에 어떻게 활용할 수 있는가?
주요 결과
- OGTD v1.0은 약 29%의 공격적 콘텐츠를 포함하는 4,779개의 트윗을 담고 있다.
- 선형 SVM 및 SGDC가 고전 모델 중 강한 macro-F1를 달성하며, Linear SVM이 종종 약간 더 우수하다.
- 고전 모델의 경우 TF-IDF 단일그램 특징이 일반적으로 이그램보다 우수하다; POS 및 의존성 특징은 Linear SVM에 한해 미미한 이점을 주지만 다른 일부 모델에는 해를 끼친다.
- 그리스어 임베딩이 포함된 딥 러닝 모델이 고전 모델을 능가한다; LSTM/GRU with Attention이 최고의 macro-F1를 내며 (~0.89), 다국어 BERT는 모국어 그리스어 임베딩보다 성능이 떨어진다.
- 이 작업에서 BERT 기반 다국어 모델은 그리스어 임베딩에 비해 효과가 낮다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.