[논문 리뷰] SemEval-2019 Task 6: Identifying and Categorizing Offensive Language in Social Media (OffensEval)
이 논문은 OffensEval 공유 태스크(SemEval-2019 Task 6)를 OLID 데이터세트를 사용하여 영어 트윗에서 오펜스(offense)를 식별하고, offense 유형을 분류하며, offense 대상자를 식별하는 것을 다루며, BERT 기반 및 앙상블 접근법이 최상위 결과를 달성했다.
We present the results and the main findings of SemEval-2019 Task 6 on Identifying and Categorizing Offensive Language in Social Media (OffensEval). The task was based on a new dataset, the Offensive Language Identification Dataset (OLID), which contains over 14,000 English tweets. It featured three sub-tasks. In sub-task A, the goal was to discriminate between offensive and non-offensive posts. In sub-task B, the focus was on the type of offensive content in the post. Finally, in sub-task C, systems had to detect the target of the offensive posts. OffensEval attracted a large number of participants and it was one of the most popular tasks in SemEval-2019. In total, about 800 teams signed up to participate in the task, and 115 of them submitted results, which we present and analyze in this report.
연구 동기 및 목표
- 수동 검토의 부담을 줄이기 위해 모욕적 언어의 자동 탐지를 촉진한다.
- OLID를 도입하여 모욕 존재 여부, 유형, 대상 등을 포착하는 계층적 3단계 주석 스키마를 제시한다.
- 세 가지 하위 작업(A: offensive vs not; B: offense type; C: offense target)을 정의하여 현상을 각각 연구한다.
- 영어 트윗에서의 모욕적 언어 식별에 대한 벤치마크를 설정하기 위한 기준선 및 경쟁적 결과를 제공한다.
제안 방법
- 세 수준의 계층적 주석 체계를 갖춘 OLID 데이터세트를 사용한다.
- 클래스 불균형으로 인해 세 하위 작업을 매크로 F1을 공식 지표로 평가한다.
- 전통 ML(SVM)에서 딥 러닝(CNN, RNN, BiLSTM, 변환기) 및 앙상블에 이르는 다양한 모델들을 조사한다.
- 외부 데이터세트와 사전 학습 임베딩(FastText, GloVe, Twitter 임베딩)을 도입하고 해시태그, 토큰, 이모지 등의 트윗 특화 사전처리를 적용한다.
- 하위 작업 A에서의 BERT 기반 모델의 보편성과 하위 작업 B와 C에서의 앙상블의 우수성을 강조하며 결과와 최상위 시스템을 보고한다.
실험 결과
연구 질문
- RQ1사회적 미디어 텍스트에서 오펜스 존재 여부, 유형, 대상자를 효과적으로 포착하는 계층적 주석 스키마가 실제로 효과적인가?
- RQ2OLID의 각 하위 작업에서 가장 효과적인 모델링 접근법(예: BERT, 앙상블)은 무엇인가?
- RQ3모델 성능은 공격적(offensive) 대 비공격적(non-offensive), offense 유형, offense 대상에 따라 어떻게 달라지는가?
- RQ4외부 데이터 및 전처리 기법의 활용이 OffensEval 성능을 얼마나 향상시키는가?
주요 결과
- 약 800개 팀이 등록; 세 하위 작업에서 115개 제출이 이루어졌다.
- 최고의 하위 작업 A(오펜스 언어 식별)는 82.9% F1(NULI, BERT-base-uncased)로 달성되었다.
- 하위 작업 B는 앙상블과 BERT의 강력한 성능을 보였으며, 최고 팀은 75.5% F1(jhan014, 키워드 기반 규칙)으로 일부 케이스에서 달성했다.
- 하위 작업 C의 최고 결과는 0.660 F1(vradivchev_anikolov의 BERT 기반 접근)였다.
- 딥 러닝 및 앙상블 방법이 우세했고, 전통 머신 러닝도 존재했으며, 사전학습된 임베딩과 트윗 특화 사전처리가 일반적으로 사용되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.