QUICK REVIEW

[논문 리뷰] SemEval-2019 Task 6: Identifying and Categorizing Offensive Language in Social Media (OffensEval)

Marcos Zampieri, Shervin Malmasi|arXiv (Cornell University)|2019. 03. 19.

Hate Speech and Cyberbullying Detection참고 문헌 73인용 수 37

한 줄 요약

이 논문은 OffensEval 공유 태스크(SemEval-2019 Task 6)를 OLID 데이터세트를 사용하여 영어 트윗에서 오펜스(offense)를 식별하고, offense 유형을 분류하며, offense 대상자를 식별하는 것을 다루며, BERT 기반 및 앙상블 접근법이 최상위 결과를 달성했다.

ABSTRACT

We present the results and the main findings of SemEval-2019 Task 6 on Identifying and Categorizing Offensive Language in Social Media (OffensEval). The task was based on a new dataset, the Offensive Language Identification Dataset (OLID), which contains over 14,000 English tweets. It featured three sub-tasks. In sub-task A, the goal was to discriminate between offensive and non-offensive posts. In sub-task B, the focus was on the type of offensive content in the post. Finally, in sub-task C, systems had to detect the target of the offensive posts. OffensEval attracted a large number of participants and it was one of the most popular tasks in SemEval-2019. In total, about 800 teams signed up to participate in the task, and 115 of them submitted results, which we present and analyze in this report.

연구 동기 및 목표

수동 검토의 부담을 줄이기 위해 모욕적 언어의 자동 탐지를 촉진한다.
OLID를 도입하여 모욕 존재 여부, 유형, 대상 등을 포착하는 계층적 3단계 주석 스키마를 제시한다.
세 가지 하위 작업(A: offensive vs not; B: offense type; C: offense target)을 정의하여 현상을 각각 연구한다.
영어 트윗에서의 모욕적 언어 식별에 대한 벤치마크를 설정하기 위한 기준선 및 경쟁적 결과를 제공한다.

제안 방법

세 수준의 계층적 주석 체계를 갖춘 OLID 데이터세트를 사용한다.
클래스 불균형으로 인해 세 하위 작업을 매크로 F1을 공식 지표로 평가한다.
전통 ML(SVM)에서 딥 러닝(CNN, RNN, BiLSTM, 변환기) 및 앙상블에 이르는 다양한 모델들을 조사한다.
외부 데이터세트와 사전 학습 임베딩(FastText, GloVe, Twitter 임베딩)을 도입하고 해시태그, 토큰, 이모지 등의 트윗 특화 사전처리를 적용한다.
하위 작업 A에서의 BERT 기반 모델의 보편성과 하위 작업 B와 C에서의 앙상블의 우수성을 강조하며 결과와 최상위 시스템을 보고한다.

실험 결과

연구 질문

RQ1사회적 미디어 텍스트에서 오펜스 존재 여부, 유형, 대상자를 효과적으로 포착하는 계층적 주석 스키마가 실제로 효과적인가?
RQ2OLID의 각 하위 작업에서 가장 효과적인 모델링 접근법(예: BERT, 앙상블)은 무엇인가?
RQ3모델 성능은 공격적(offensive) 대 비공격적(non-offensive), offense 유형, offense 대상에 따라 어떻게 달라지는가?
RQ4외부 데이터 및 전처리 기법의 활용이 OffensEval 성능을 얼마나 향상시키는가?

주요 결과

약 800개 팀이 등록; 세 하위 작업에서 115개 제출이 이루어졌다.
최고의 하위 작업 A(오펜스 언어 식별)는 82.9% F1(NULI, BERT-base-uncased)로 달성되었다.
하위 작업 B는 앙상블과 BERT의 강력한 성능을 보였으며, 최고 팀은 75.5% F1(jhan014, 키워드 기반 규칙)으로 일부 케이스에서 달성했다.
하위 작업 C의 최고 결과는 0.660 F1(vradivchev_anikolov의 BERT 기반 접근)였다.
딥 러닝 및 앙상블 방법이 우세했고, 전통 머신 러닝도 존재했으며, 사전학습된 임베딩과 트윗 특화 사전처리가 일반적으로 사용되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.