QUICK REVIEW

[논문 리뷰] NLP-CUET@LT-EDI-EACL2021: Multilingual Code-Mixed Hope Speech Detection using Cross-lingual Representation Learner

Eftekhar Hossain, Omar Sharif|arXiv (Cornell University)|2021. 01. 01.

Hate Speech and Cyberbullying Detection참고 문헌 19인용 수 7

한 줄 요약

이 논문은 다국어 복합 언어 텍스트를 대상으로 한 교차 언어 트랜스포머 모델을 사용한 다국어 복합 언어 희망 언어 감지 시스템을 제안한다. XLM-RoBERTa는 영어, 타밀어, 말라요람어에서 최상의 성능을 기록하며 각각 가중 F1 점수 0.931, 0.602, 0.854를 달성한다. 이 방법은 소셜 미디어에서 수집한 다국어 복합 언어 데이터셋을 기반으로 미세조정된 사전 훈련된 트랜스포머를 활용하여 기존의 기계 학습 및 딥 러닝 방법보다 뛰어난 성능을 발휘한다.

ABSTRACT

In recent years, several systems have been developed to regulate the spread of negativity and eliminate aggressive, offensive or abusive contents from the online platforms. Nevertheless, a limited number of researches carried out to identify positive, encouraging and supportive contents. In this work, our goal is to identify whether a social media post/comment contains hope speech or not. We propose three distinct models to identify hope speech in English, Tamil and Malayalam language to serve this purpose. To attain this goal, we employed various machine learning (support vector machine, logistic regression, ensemble), deep learning (convolutional neural network + long short term memory) and transformer (m-BERT, Indic-BERT, XLNet, XLM-Roberta) based methods. Results indicate that XLM-Roberta outdoes all other techniques by gaining a weighted $f_1$-score of $0.93$, $0.60$ and $0.85$ respectively for English, Tamil and Malayalam language. Our team has achieved $1^{st}$, $2^{nd}$ and $1^{st}$ rank in these three tasks respectively.

연구 동기 및 목표

다국어 복합 언어 소셜 미디어 게시물에서 긍정적이고 지지적이며 격려적인 내용인 희망 언어를 탐지하는 계산 모델을 개발하는 것.
Annotation된 데이터셋의 부족성과 희망 언어 감지에서의 다국어 및 복합 언어 텍스트 도전 과제를 해결하는 것.
기존 기계 학습, 딥 러닝, 트랜스포머 기반 아키텍처를 포함한 다양한 모델의 성능을 평가하고 비교하는 것.
영어, 타밀어, 말라요람어에서 희망 언어, 비희망 언어, 의도하지 않은 언어(NIL)를 높은 정확도로 분류하는 것.

제안 방법

영어, 타밀어, 말라요람어를 대상으로 한 다국어 복합 언어 희망 언어 데이터셋을 기반으로 XLM-RoBERTa, m-BERT, Indic-BERT, XLNet, BERT 기반 모델을 미세조정한다.
다국어 표현 학습자들을 통한 전이 학습을 활용하여 다양한 언어 간의 의미적 및 문법적 패턴을 포착한다.
기존 기계 학습 및 딥 러닝 모델의 기초 특징으로 TF-IDF 및 FastText 임베딩을 사용한다.
Keras와 FastText 임베딩을 활용하여 CNN과 BiLSTM 아키텍처를 조합하여 텍스트의 순차적이고 국소적인 패턴을 모델링한다.
30 에포크 동안 초기 학습률 2e−5로 트랜스포머 모델을 효율적으로 미세조정하기 위해 조기 정지 및 Ktrain의 'fit onecycle' 방법을 적용한다.
검증 세트를 활용한 광범위한 초모델 튜닝을 수행하고, 최종 성능은 미리 보지 않은 테스트 세트에서 평가한다.

실험 결과

연구 질문

RQ1다양한 언어에서 복합 언어 희망 언어 감지에서 기존 기계 학습 및 딥 러닝 모델과 최신 트랜스포머 모델 간의 성능 비교는 어떻게 되는가?
RQ2다국어 사전 훈련 및 교차 언어 전이 학습이 희망 언어 감지 성능에 미치는 영향은 무엇인가?
RQ3왜 XLM-RoBERTa가 이 다국어 복합 언어 환경에서 다른 트랜스포머 모델보다 뛰어난 성능을 보이는가?
RQ4클래스 불균형과 복합 언어가 모델의 일반화 능력과 잘못된 분류 패턴에 미치는 영향은 무엇인가?
RQ5다국어 모델은 타밀어, 말라요람어와 같은 저자원 언어에서 희망 언어를 효과적으로 감지할 수 있는가?

주요 결과

XLM-RoBERTa가 영어 테스트 세트에서 가장 높은 가중 F1 점수 0.931을 기록하여 모든 다른 모델을 앞섰다.
타밀어에서는 XLM-RoBERTa가 가중 F1 점수 0.602를 기록하여 m-BERT(0.588), Indic-BERT(0.578), XLNet(0.558)를 모두 앞섰다.
말라요람어에서는 XLM-RoBERTa가 가중 F1 점수 0.854를 기록하여 Indic-BERT(0.840)와 m-BERT(0.804)를 초월했다.
앙상블 모델은 기존 기계 학습 모델 중에서 가장 뛰어난 성능을 보였으며, 영어에서 가중 F1 점수 0.905, 타밀어에서 0.573를 기록했다.
혼동 행렬 분석 결과, 모델이 가장 자주 희망 언어(HS)를 비희망 언어(NHS)로 오분류했으며, 이는 주로 복합 언어와 클래스 불균형 때문이었다.
높은 성능에도 불구하고, 모델은 '의도하지 않은 언어'(NIL) 클래스에서 어려움을 겪었으며, 훈련 예제가 부족한 저자원, 짧은 텍스트들을 대부분 비희망 언어로 잘못 분류했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.