[논문 리뷰] Toxic Language Detection in Social Media for Brazilian Portuguese: New Dataset and Multilingual Analysis
소개 ToLD-Br, 인구통계 인식 주석이 포함된 대규모 브라질 포르투갈어 독성 언어 트위터 데이터셋을 제시하고, 단일언어와 다중언어 BERT 모델의 이진 및 다중라벨 독성 코멘트 분류를 분석한다.
Hate speech and toxic comments are a common concern of social media platform users. Although these comments are, fortunately, the minority in these platforms, they are still capable of causing harm. Therefore, identifying these comments is an important task for studying and preventing the proliferation of toxicity in social media. Previous work in automatically detecting toxic comments focus mainly in English, with very few work in languages like Brazilian Portuguese. In this paper, we propose a new large-scale dataset for Brazilian Portuguese with tweets annotated as either toxic or non-toxic or in different types of toxicity. We present our dataset collection and annotation process, where we aimed to select candidates covering multiple demographic groups. State-of-the-art BERT models were able to achieve 76% macro-F1 score using monolingual data in the binary case. We also show that large-scale monolingual data is still needed to create more accurate models, despite recent advances in multilingual approaches. An error analysis and experiments with multi-label classification show the difficulty of classifying certain types of toxic comments that appear less frequently in our data and highlights the need to develop models that are aware of different categories of toxicity.
연구 동기 및 목표
- Twitter에서 인구통계 인식 주석을 갖춘 대규모 브라질 포르투갈어 독성 언어 데이터셋(ToLD-Br)을 생성한다.
- 이진 독성 코멘트 분류에서 단일언어 BERT 모델과 다국어 BERT 모델의 효과를 분석한다.
- 다언어 설정에서의 옮겨 학습(전이 학습) 및 제로샷 학습이 독성 탐지에 미치는 영향을 조사한다.
- 이 언어에서의 다중라벨 독성 분류에 필요한 데이터 요건과 도전과제를 탐구한다.
- 주석자 간 합의, 라벨 다양성, 모델 오류 패턴에 대한 인사이트를 제공하여 향후 연구를 안내한다.
제안 방법
- 키워드/해시태그 및 인플루언서 기반 전략으로 1000만 개가 넘는 트윗을 수집하고, 21k개의 트윗을 일곱 가지 독성 범주로 주석화한다.
- 주석자 간 일치도를 평가하기 위해 Krippendorff의 알파를 계산하고 주석 간 발산을 분석한다.
- Baseline BoW+AutoML 모델과 여러 BERT 기반 분류기(Brazilian Portuguese BERT BR-BERT 및 Multilingual BERT MBERT-BR)를 학습·평가한다.
- 단일언어 포르투갈어 Fine-tuning을 수행하고, 다언어 설정에서 OLID 영어 데이터를 활용한 전이 학습 및 제로샷 학습을 실험한다.
- 이진 독성 성능에 대한 훈련 데이터 크기의 영향을 분석하고 초기 다중라벨 분류 실험을 수행한다.
- 독성 유형별 오류 분석을 제공하고 데이터 불균형 및 주석 동의의 영향을 논의한다.
실험 결과
연구 질문
- RQ1브라질 포르투갈어 단일언어 BERT 모델이 ToLD-Br에서의 이진 독성 코멘트 탐지에 대해 다국어 모델과 비교해 얼마나 효과적인가?
- RQ2전이 학습이나 제로샷 학습을 영어 데이터로 도입하면 브라질 포르투갈어 독성 탐지에 도움이 되는가?
- RQ3훈련 데이터 크기가 이진 분류 성능에 어떻게 영향을 미치며 특히 소수 독성 클래스에서 어떤 차이가 나타나는가?
- RQ4ToLD-Br의 다중라벨 독성 분류에서의 도전과제는 무엇이며 카테고리에 따라 모델 성능은 어떻게 달라지는가?
- RQ5주석자 인구통계학 및 라벨 합의가 데이터 품질 및 모델 학습에 어떤 영향을 미치는가?
주요 결과
- 단일언어 브라질 포르투갈어 BERT 모델(M-BERT-BR)이 평가된 접근법 중 최고 수준의 macro-F1을 달성하며 약 76%를 기록하고 다른 모델들보다 거짓 음성이 적다.
- 단일언어 BR-BERT는 M-BERT-BR과 비교해도 비슷한 수준의 성능을 보이며 종종 macro-F1에서 약간 더 우수해 언어 특화 데이터의 이점이 남아 있음을 시사한다.
- 영어 OLID 데이터로부터의 전이 학습(M-BERT(transfer))은 단일언어 모델을 능가하지 못하고 더 많은 거짓 음성을 만들어낸다.
- 제로샷 학습(M-BERT(zero-shot))은 특히 독성(양성) 클래스에서 성능이 좋지 못하며 macro-F1이 약 0.56 정도이다.
- BoW+AutoML은 매크로-F1 약 0.74로 강력한 베이스라인을 제공하며 심층 학습 없이도 경쟁력 있는 성능을 보인다.
- 훈련 데이터를 늘리면 독성 클래스의 정밀도와 재현율이 모두 개선되며 보다 신뢰할 수 있는 결과를 얻으려면 약 6k개의 예제가 필요하지만, 데이터 불균형으로 소수 클래스는 여전히 도전 과제이다.
- 다중라벨 분류는 훨씬 더 어렵며 예제가 많은 라벨(모욕, 음란)은 예제가 거의 없는 라벨(Racism, Xenophobia, LGBTQ+phobia)보다 성능이 더 양호하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.