Skip to main content
QUICK REVIEW

[논문 리뷰] A Large-Scale Semi-Supervised Dataset for Offensive Language Identification

Sara Rosenthal, Pepa Atanasova|arXiv (Cornell University)|2020. 04. 29.
Hate Speech and Cyberbullying Detection참고 문헌 42인용 수 75
한 줄 요약

이 논문은 오프닝어니어스 랭귀지 분류를 위한 계층적 세 단계 분류 체계를 사용해 약 900만 건 이상의 영어 트윗을 주석 처리한 대규모 준감독 학습 데이터셋인 SOLID를 소개한다. 기존의 OLID 데이터셋과 함께 SOLID를 사용하여, 딥 러닝 모델을 활용한 오프닝어니어스 랭귀지 식별 작업에서 성능 향상이 뚜렷하게 나타났으며, 특히 낮은 수준의 분류 체계에서 두드러진 성과를 보였다.

ABSTRACT

The use of offensive language is a major problem in social media which has led to an abundance of research in detecting content such as hate speech, cyberbulling, and cyber-aggression. There have been several attempts to consolidate and categorize these efforts. Recently, the OLID dataset used at SemEval-2019 proposed a hierarchical three-level annotation taxonomy which addresses different types of offensive language as well as important information such as the target of such content. The categorization provides meaningful and important information for understanding offensive language. However, the OLID dataset is limited in size, especially for some of the low-level categories, which included only a few hundred instances, thus making it challenging to train robust deep learning models. Here, we address this limitation by creating the largest available dataset for this task, SOLID. SOLID contains over nine million English tweets labeled in a semi-supervised manner. We further demonstrate experimentally that using SOLID along with OLID yields improved performance on the OLID test set for two different models, especially for the lower levels of the taxonomy. Finally, we perform analysis of the models' performance on easy and hard examples of offensive language using data annotated in a semi-supervised way.

연구 동기 및 목표

  • 기존의 오프닝어니어스 랭귀지 데이터셋의 크기가 작아서, 특히 저수준 분류 체계에서의 데이터 부족 문제를 해결하기 위해.
  • 대규모 소셜 미디어 텍스트를 대상으로 확장 가능한 준감독 학습 방법을 개발하기 위해.
  • 딥 러닝 모델을 위한 오프닝어니어스 랭귀지 탐지에 적합한 대규모 고품질 데이터셋을 구축하기 위해.
  • 새로운 데이터셋을 기존의 OLID 같은 벤치마크와 결합했을 때 모델 성능에 미치는 영향을 평가하기 위해.

제안 방법

  • 900만 건 이상의 영어 트윗을 대규모로 주석 처리하기 위해 준감독 학습 파이프라인을 활용하였다.
  • 일致한 주석 처리를 위해 SemEval-2019 OLID 데이터셋에서 사용된 계층적 세 단계 주석 분류 체계를 채택하였다.
  • 모델의 불확실성 추정과 활성 학습 기법을 활용해 고신뢰도 예측을 우선순위로 인간 검증에 배정하였다.
  • 모델 예측 결과와 인간 검증된 인스턴스를 결합하여 반복적으로 주석 품질을 향상시켰다.
  • 대규모 데이터셋 전반에 걸쳐 레이블 신뢰도를 확보하기 위해 데이터 필터링 및 일관성 검사를 실시하였다.
  • SOLID에서 미세조정된 사전 학습된 언어 모델을 학습하고, OLID 테스트 세트에서 성능을 평가하였다.

실험 결과

연구 질문

  • RQ1준감독 학습 접근법이 레이블 품질을 유지하면서도 900만 건 이상의 트윗에 대해 오프닝어니어스 랭귀지 주석 처리를 효과적으로 확장할 수 있는가?
  • RQ2SOLID에서 학습한 모델이 OLID 벤치마크에서 성능을 향상시키는 데 기여하는 정도는 어떠한가, 특히 저수준 분류 체계에서의 성능 향상은?
  • RQ3대규모 준감독 학습 데이터에서 학습할 경우, 쉬운 예제와 어려운 예제의 상대적 기여도는 어떻게 되는가?
  • RQ4SOLID와 OLID를 결합하여 학습하는 것이 OLID 단독 학습 대비 F1 점수 및 카테고리 수준 성능에서 얼마나 더 뛰어난가?

주요 결과

  • SOLID에서 학습한 모델은 기존에 학습 데이터가 부족했던 저수준 분류 체계에서 OLID 테스트 세트에서 성능 향상이 뚜렷하게 나타났다.
  • SOLID와 OLID를 결합한 결과, 분류 체계의 모든 수준에서 F1 점수가 향상되었으며, 특히 가장 세분화된 수준에서 가장 두드러진 성과를 보였다.
  • SOLID에서 학습한 모델은 OLID 단독 학습 모델 대비 언어적 미묘함이나 맥락 의존적인 예측에 대해 더 우수한 일반화 능력을 보였다.
  • 준감독 학습 주석 처리 파이프라인은 대규모에서 고품질의 데이터셋을 성공적으로 생성하여, 후속 모델 학습에 강력한 기반을 제공하였다.
  • 간접적인 형태의 오프닝어니어스 랭귀지, 예를 들어 비유나 빗소리 등을 탐지하는 데서 성능 향상이 가장 두드러졌다. 이는 기존 표준 모델이 어려움을 겪는 영역이다.
  • 결과적으로, 대규모 준감독 데이터는 자원이 부족한 오프닝어니어스 랭귀지 카테고리에서 데이터 부족 문제를 효과적으로 보완할 수 있음을 보여주었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.