[논문 리뷰] Ensemble Language Models for Multilingual Sentiment Analysis
요지: 이 논문은 SemEval-17 및 ASTD 데이터에서 영어 및 아랍어 감정 분석을 위한 네 가지 프리트레인 모델을 비교하고, 베이스라인을 개선하는 두 개의 앙상블 아키텍처를 제안하며, 영어 결과 중 다수결 투표가 최적의 성능을 보임.
The rapid advancement of social media enables us to analyze user opinions. In recent times, sentiment analysis has shown a prominent research gap in understanding human sentiment based on the content shared on social media. Although sentiment analysis for commonly spoken languages has advanced significantly, low-resource languages like Arabic continue to get little research due to resource limitations. In this study, we explore sentiment analysis on tweet texts from SemEval-17 and the Arabic Sentiment Tweet dataset. Moreover, We investigated four pretrained language models and proposed two ensemble language models. Our findings include monolingual models exhibiting superior performance and ensemble models outperforming the baseline while the majority voting ensemble outperforms the English language.
연구 동기 및 목표
- 영어와 아랍어에 대해 프리트레인 트랜스포머를 활용하여 트윗의 다국어 감정 분석을 발전시킨다.
- 영어/아랍어 데이터셋을 결합하고 언어 독립적 앙상블을 평가하여 언어 편향을 완화한다.
- 다국어 전반의 감정 분류를 개선하기 위한 앙상블 아키텍처를 개발하고 평가한다.
제안 방법
- 영어 및 아랍어 데이터에 대해 네 가지 프리트레인 언어 모델(ArabicBERTv2, RoBERTa base, multilingual BERT, XLM-RoBERTa base)을 미세조정한다.
- 두 가지 앙상블 모델을 제안한다: (i) 언어별 풀러 출력과 융합 층 및 피드포워드 네트워크의 융합, (ii) 융합과 피드포워드 사이에 다중 헤드 어텐션을 추가한다.
- 교차 엔트로피 손실과 Adam 옵티마이저를 사용하여 언어별 및 결합 데이터로 학습하고, 다양한 시퀀스 길이 및 에폭 설정을 적용한다.
- 모델별 바이트 페어 인코딩 토크나이저를 사용하여 기호/URL 제거로 트윗 전처리한다.
- 정확도, 가중 정밀도, 가중 재현율, 매크로 F1을 사용하여 평가하여 클래스 불균형에 대응한다.
실험 결과
연구 질문
- RQ1영어 및 아랍어 감정 분석에서 모놀링구얼 모델이 다국어 기본 모델보다 더 우수할 수 있는가?
- RQ2앙상블 모델이 개별 프리트레인 모델보다 이득을 제공하며 다수결 투표가 특히 효과적인가?
- RQ3영어와 아랍어 데이터를 결합한 언어 독립적 앙상블이 교차 언어 감정 분류를 개선하는가?
주요 결과
| Language | Training Data | Model | Accuracy | Precision | Recall | F1-macro |
|---|---|---|---|---|---|---|
| English | English | m-BERT (Baseline) | 67.16 | 67.48 | 67.16 | 67.06 |
| English | English | RoBERTa | 70.69 | 71.34 | 70.69 | 70.84 |
| English | English | XLM-RoBERTa | 69.07 | 67.00 | 69.07 | 69.13 |
| Arabic | Arabic | m-BERT (Baseline) | 54.21 | 53.76 | 54.21 | 53.08 |
| Arabic | Arabic | AraBERTv02 | 69.79 | 69.96 | 69.79 | 69.78 |
| Arabic | Arabic | XLM-RoBERTa | 63.89 | 63.63 | 63.89 | 63.74 |
| English | English | Majority Voting Ensemble | 70.95 | 71.55 | 70.95 | 71.03 |
| Arabic | Arabic | Majority Voting Ensemble | 66.69 | 66.37 | 66.69 | 66.42 |
| English | English | Ensemble model with Feed Forward | 68.91 | 69.26 | 68.91 | 68.59 |
| Arabic | Arabic | Ensemble model with Feed Forward | 67.67 | 69.01 | 67.67 | 67.82 |
| English | English and Arabic | Ensemble model with multi-head attention Feed Forward | 67.44 | 69.14 | 67.44 | 67.31 |
| Arabic | English and Arabic | Ensemble model with multi-head attention Feed Forward | 66.30 | 67.82 | 66.30 | 66.42 |
| English | English and Arabic | Ensemble model with Feed Forward | 70.03 | 70.50 | 70.03 | 69.88 |
| Arabic | English and Arabic | Ensemble model with Feed Forward | 67.61 | 68.01 | 67.61 | 67.12 |
- Monolingual AraBERTv02가 높은 아랍어 성능을 달성하여 다른 아랍어 모델보다 우수하다.
- Majority Voting Ensemble은 영어 결과에서 강력한 성능을 보이며(일부 설정에서 최상) 영어 베이스라인을 개선한다.
- 피드포워드와 언어 인식 융합을 갖춘 제안된 앙상블이 특정 설정에서 베이스라인을 약간 앞선다.
- 앙상블 모델은 일반적으로 언어 간 베이스라인 모델보다 성능이 우수하다.
- Macro F1은 클래스 불균형과 다중 클래스 설정을 고려할 때 적절한 지표이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.