[논문 리뷰] Automatic Sexism Detection with Multilingual Transformer Models
이 논문은 XLM-RoBERTa를 활용한 다국어 트랜스포머 기반 접근법을 제안하여 소셜 미디어에서의 자동 성차별 탐지 문제를 해결한다. 외부 데이터셋(HatEval2019 및 MeTwo)을 이용한 비지도 사전 훈련과 EXIST2021 벤치마크에서의 미세조정을 통해 구현하였다. 최고의 모델은 이진 성차별 탐지에서 매크로 F1 스코어 0.7752(5위), 세분화된 분류에서 매크로 F1 스코어 0.5589(6위)를 기록하였으며, 의미적으로 관련된 데이터에서의 사전 훈련이 단순 미세조정보다 모델의 강건성과 일반화 능력을 향상시킨다는 것을 입증하였다.
Sexism has become an increasingly major problem on social networks during the last years. The first shared task on sEXism Identification in Social neTworks (EXIST) at IberLEF 2021 is an international competition in the field of Natural Language Processing (NLP) with the aim to automatically identify sexism in social media content by applying machine learning methods. Thereby sexism detection is formulated as a coarse (binary) classification problem and a fine-grained classification task that distinguishes multiple types of sexist content (e.g., dominance, stereotyping, and objectification). This paper presents the contribution of the AIT_FHSTP team at the EXIST2021 benchmark for both tasks. To solve the tasks we applied two multilingual transformer models, one based on multilingual BERT and one based on XLM-R. Our approach uses two different strategies to adapt the transformers to the detection of sexist content: first, unsupervised pre-training with additional data and second, supervised fine-tuning with additional and augmented data. For both tasks our best model is XLM-R with unsupervised pre-training on the EXIST data and additional datasets and fine-tuning on the provided dataset. The best run for the binary classification (task 1) achieves a macro F1-score of 0.7752 and scores 5th rank in the benchmark; for the multiclass classification (task 2) our best submission scores 6th rank with a macro F1-score of 0.5589.
연구 동기 및 목표
- 다국어 소셜 미디어 콘텐츠에서의 성차별 탐지 문제를 해결하기 위해, 특히 부족한 주석이 있는 훈련 데이터를 고려하여 접근한다.
- 성차별 탐지의 저자원 NLP 환경에서 모델의 일반화 능력을 향상시키고 과적합을 줄이기 위한 전략을 개선한다.
- 다국어 트랜스포머 모델을 활용한 데이터 증강 및 전이 학습 전략의 효과성을 평가한다.
- mBERT와 XLM-R의 성능을 이진 및 세분화된 성차별 분류 과제에서 비교한다.
- 목표 데이터셋에만 지도 미세조정을 수행하는 것보다, 외부 데이터셋에서 비지도 사전 훈련을 수행하는 것이 더 뛰어난 성능을 내는지 확인한다.
제안 방법
- 연구는 이진 및 다중 클래스 성차별 분류 과제에 대해 두 가지 다국어 트랜스포머 모델인 mBERT와 XLM-R을 사용한다.
- 모델의 일반화 능력을 향상시키기 위해, 사용자명, 해시태그, URL, 숫자,标 punctuations, 비-ASCII 문자를 제거하는 포괄적인 전처리 파이프라인을 적용하였다.
- 비지도 사전 훈련을 위해 외부 데이터셋인 HatEval2019(여성 및 이민자에 대한 혐오 발언) 및 MeTwo(스페인어 성차별 표현)를 활용하였다.
- 훈련 인스턴스를 백트랜슬레이션을 통해 데이터 증강한 결과와 그렇지 않은 결과를 비교하여 EXIST2021 데이터셋에서 모델을 미세조정하였다.
- 다양한 모델(예: mBERT 및 XLM-R)의 예측을 조합하기 위해 후기 융합 전략을 사용하였으며, 클래스별 확률의 최댓값을 취함으로써 모델의 강건성을 향상시켰다.
- 최고의 성능을 보인 모델은 EXIST, HatEval2019, MeTwo 데이터셋에서 비지도 사전 훈련을 거친 XLM-R을 사용하였으며, 이후 EXIST 데이터셋에서 지도 미세조정을 수행하였다.
실험 결과
연구 질문
- RQ1목표 데이터셋에만 미세조정을 수행하는 것보다, 의미적으로 관련된 외부 데이터셋에서 비지도 사전 훈련을 수행하는 것이 다국어 트랜스포머의 성차별 탐지 성능을 향상시키는가?
- RQ2백트랜슬레이션을 통한 데이터 증강 전략은 저자원 성차별 탐지 과제에서 모델의 일반화 능력을 향상시키는 데 얼마나 효과적인가?
- RQ3전이 학습 전략을 적용했을 때, XLM-R이 이진 및 세분화된 성차별 분류 과제에서 mBERT를 능가할 수 있는가?
- RQ4영어 및 스페인어를 포함한 다국어 데이터 통합이 교차 언어 성차별 탐지 성능을 향상시키는가?
- RQ5전처리 파이프라인의 선택이 EXIST2021 벤치마크에서 모델 성능에 미치는 영향은 어느 정도인가?
주요 결과
- EXIST, HatEval2019, MeTwo 데이터셋에서 비지도 사전 훈련을 거친 XLM-R 모델이 가장 뛰어난 성능을 보였으며, 이진 분류 과제에서 매크로 F1 스코어 0.7752를 기록하여 벤치마크에서 5위를 차지하였다(과제 1).
- 세분화된 분류 과제(과제 2)에서는 동일한 XLM-R 기반 접근법이 매크로 F1 스코어 0.5589를 기록하여 총 6위를 기록하였다.
- 증강된 EXIST 데이터셋에서 미세조정된 mBERT 모델은 과적합의 징후를 보였으며, 검증 정확도는 79.97%였지만 과제 1에서 테스트 정확도는 단지 71.82%에 그쳤다.
- 다양한 모델의 예측을 융합하는 후기 융합 전략은 모델의 강건성을 약간 향상시켰지만, 최고의 개별 XLM-R 모델을 능가하지 못했으며, 과제 1에서는 10위, 과제 2에서는 8위를 기록하였다.
- 같은 모델을 목표 데이터셋에만 미세조정하는 것보다 외부 데이터셋에서의 사전 훈련이 더 좋은 결과를 내었으며, 이는 저자원 환경에서 도메인 적응형 사전 훈련이 직접적인 미세조정보다 더 효과적임을 시사한다.
- 원본(전처리되지 않은) 데이터로 미세조정했을 때, 영어 콘텐츠에 비해 스페인어 콘텐츠에서 성능이 뚜렷이 열 劣하였으며, 이는 언어별로 데이터 품질 또는 분포 문제를 암시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.