Skip to main content
QUICK REVIEW

[논문 리뷰] Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon

Fajri Koto, Tilman Beck|arXiv (Cornell University)|2024. 02. 03.
Topic Modeling인용 수 6
한 줄 요약

본 논문은 다국어 렉시콘을 확장하고 필터링한 상태로 다국어 모델을 사전학습시키면 34개 언어에 대해 강력한 제로샷 감정 분석을 얻을 수 있으며, 종종 문장 수준의 감정 데이터를 사용하지 않고도 영어로 훈련된 모델 및 대형 언어 모델보다 우수한 경우가 많다.

ABSTRACT

Improving multilingual language models capabilities in low-resource languages is generally difficult due to the scarcity of large-scale data in those languages. In this paper, we relax the reliance on texts in low-resource languages by using multilingual lexicons in pretraining to enhance multilingual capabilities. Specifically, we focus on zero-shot sentiment analysis tasks across 34 languages, including 6 high/medium-resource languages, 25 low-resource languages, and 3 code-switching datasets. We demonstrate that pretraining using multilingual lexicons, without using any sentence-level sentiment data, achieves superior zero-shot performance compared to models fine-tuned on English sentiment datasets, and large language models like GPT--3.5, BLOOMZ, and XGLM. These findings are observable for unseen low-resource languages to code-mixed scenarios involving high-resource languages.

연구 동기 및 목표

  • 문장 수준 데이터 대신 감정 렉시콘을 활용하여 제한된 라벨링 데이터로 34개 언어에서 감정 분석을 가능하게 하기 위해 감정 분석을 고취시키는 것.
  • LEXicon 기반 사전학습이 이진 및 3-way 분류에서 제로샷 다국어 감정 성능에 어떤 영향을 미치는지 평가한다.
  • 회귀 기반 사전학습과 분류 기반 사전학습의 차이 및 렉시콘 확장(Panlex)과 필터링이 일반화에 미치는 영향을 조사한다.
  • 고/중간 자원 언어, NusaX 인도네시아어군, 아프리카 언어 및 코드 스위치 텍스트에서의 성능을 평가한다.

제안 방법

  • 감정 렉시콘에 대해 여섯 개의 다국어 모델(mBERT Base, XLM-R Base/Large, mBART Large, mT5 Base/Large)을 사전학습한다.
  • 다국어 감정 렉시콘으로 NRC-VAD를 사용하고 Panlex 번역으로 109개 언어로 확장한다.
  • 번역된 점수를 영어 점수와 정렬(대응)하여 반복적 회귀 기반 접근법으로 확장 렉시템을 필터링한다.
  • 34개 언어의 문장 수준 데이터에서 이진 및 3-way 설정으로 제로샷 감정을 미세조정하거나 평가하고, 회귀 vs. 분류 사전학습을 비교한다.
  • 렉시콘 사전학습 모델을 SST-미세조정된 영어 모델 및 대형 언어 모델(GPT-3.5, XGLM, BLOOMZ)과 비교한다.
  • 언어 그룹(HM-R, NusaX, African, Code-Switching)별 제로샷 감정에 대해 매크로-F1/가중 F1을 보고한다.
Figure 1: Left : pretraining with a multilingual sentiment lexicon. Right : zero-shot inference using sentences or documents.
Figure 1: Left : pretraining with a multilingual sentiment lexicon. Right : zero-shot inference using sentences or documents.

실험 결과

연구 질문

  • RQ1문장 수준 데이터 없이 다국어 감정 렉시콘 사전학습이 저자원 언어에서 제로샷 감정 분석을 개선할 수 있는가?
  • RQ2다국어 감정 렉시콘이 특히 보이지 않는 저자원 언어 및 코드 혼합 텍스트에서 다국어 일반화를 개선하는가?
  • RQ3제로샷 설정에서 이진 대 3-way 감정 분류에 대해 회귀 기반 사전학습과 분류 기반 사전학습 중 어느 것이 더 효과적인가?
  • RQ4렉시콘 확장(Panlex)과 필터링이 언어 그룹 전반의 제로샷 성능에 미치는 영향은 무엇인가?

주요 결과

  • 렉시콘 기반 사전학습은 많은 저자원 시나리오에서 일반 모델과 대형 언어 모델에 비해 제로샷 성능을 크게 향상시킨다.
  • 고/중자원 언어에서 일부 SST-미세조정 모델이 여전히 최고를 기록하지만, 다수의 렉시콘 기반 사전학습 모델이 이진 분류에서 GPT-3.5 및 XGLM과 같은 LLM을 능가한다(예: Lexicon extensions를 가진 XLM-R Large).
  • 저자원 언어(NusaX 및 아프리카)의 경우 다국어 NRC-VAD를 이용한 렉시콘 기반 사전학습이 SST-미세조정 영어 기준선 및 대형 언어 모델을 자주 능가하며, mT5 Large가 그룹 전체에서 강한 성과를 달성한다.
  • Panlex 확장은 일반적으로 렉시콘 커버리지를 확대하여 3-way 분류에 도움이 되지만, 보지 못한 저자원 언어에 대한 효과는 미묘하고 소스 언어가 영어 중심일 때는 다소 한계가 있다.
  • 코드 스위치 텍스트는 렉시콘 확장과 필터링으로 이진 분류에서 LLM 및 SST 기반 기준선을 능가하고, 일부 3-way 경우에는 LLM 성능에 근접하거나 이를 능가한다.
  • 회귀 기반 사전학습은 이진 분류에서 더 우수한 경향이 있으며, 분류 기반 사전학습은 3-way 분류에서 뛰어나; 중립 경계 처리의 난이도는 일부 모델(예: mT5)에서 더 도전적이다.
  • 해당 접근은 모델이 보기에 보이지 않는 언어에 대해 합리적인 제로샷 전이 성능을 보이며, 렉시콘 기반 사전학습을 통한 다국어 일반화가 향상되었음을 시사한다.
Figure 2: Lexicon filtering pipeline.
Figure 2: Lexicon filtering pipeline.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.