QUICK REVIEW

[論文レビュー] Zero-shot Sentiment Analysis in Low-Resource Languages Using a Multilingual Sentiment Lexicon

Fajri Koto, Tilman Beck|arXiv (Cornell University)|Feb 3, 2024

Topic Modeling被引用数 6

ひとこと要約

この論文は、多言語感情語彙を拡張・フィルタリングして事前学習した多言語モデルが、34言語のゼロショット感情分析で強力な性能を示し、多くの場合、英語で訓練したモデルや大規模言語モデルを上回り、文レベルの感情データを使用していない。

ABSTRACT

Improving multilingual language models capabilities in low-resource languages is generally difficult due to the scarcity of large-scale data in those languages. In this paper, we relax the reliance on texts in low-resource languages by using multilingual lexicons in pretraining to enhance multilingual capabilities. Specifically, we focus on zero-shot sentiment analysis tasks across 34 languages, including 6 high/medium-resource languages, 25 low-resource languages, and 3 code-switching datasets. We demonstrate that pretraining using multilingual lexicons, without using any sentence-level sentiment data, achieves superior zero-shot performance compared to models fine-tuned on English sentiment datasets, and large language models like GPT--3.5, BLOOMZ, and XGLM. These findings are observable for unseen low-resource languages to code-mixed scenarios involving high-resource languages.

研究の動機と目的

限定されたラベル付きデータで34言語の感情分析を促進するため、文レベルデータの代わりに感情語彙を活用。
語彙ベースの事前学習が、二値および3クラス分類におけるゼロショット多言語感情性能にどう影響するかを評価。
回帰ベースと分類ベースの事前学習、および語彙拡張（Panlex）とフィルタリングが一般化に与える影響を調査。
高・中資源言語、NusaXインドネシア語群、アフリカ言語、コードスイッチ文の性能を評価。

提案手法

感情語彙上で6つの多言語モデル（mBERT Base、XLM-R Base/Large、mBART Large、mT5 Base/Large）を事前学習。
NRC-VADを多言語感情語彙として、Panlex翻訳で109言語へ拡張。
翻訳されたスコアを英語のスコアと反復的回帰ベースのアプローチで一致させ、拡張語彙をフィルタリング。
34言語の文レベルデータに対して二値・3-way設定でゼロショット感情をファインチューニングまたは評価し、回帰ベースと分類ベースの事前学習を比較。
lexicon-pretrained モデルを SST-finetuned English モデルおよび大規模言語モデル（GPT-3.5、XGLM、BLOOMZ）と比較。
言語グループ（HM-R、NusaX、African、Code-Switching）ごとにゼロショット感情の macro-F1/weighted F1 を報告。

Figure 1: Left : pretraining with a multilingual sentiment lexicon. Right : zero-shot inference using sentences or documents.

実験結果

リサーチクエスチョン

RQ1文レベルデータなしで、 multilingual sentiment lexicon pretraining は低リソース言語のゼロショット感情分析を改善できるか？
RQ2多言語感情語彙は、特に unseen low-resource languages やコード混在テキストの多言語一般化を改善するか？
RQ3回帰か分類の事前学習の方が、ゼロショット設定の二値対3-way感情分類において効果的か？
RQ4Panlex拡張とフィルタリングが言語グループ間のゼロショット性能に与える影響は？

主な発見

語彙ベースの事前学習は、バニラモデルおよび多くの低リソースシナリオでゼロショット性能を大幅に向上させる。
高・中資源言語では、SST-finetunedモデルが最良の場合もあるが、XLM-R Large with Lexicon extensions などの語彙拡張を用いたいくつかの語彙ベース事前学習モデルがGPT-3.5やXGLMなどのLLMを上回る場合がある（二値分類で）。
低リソース言語（NusaXとアフリカ）では、 multilingual NRC-VAD を用いた語彙ベースの事前学習が SST-finetuned 英語ベースラインや大規模言語モデルを上回ることが多く、mT5 Large はグループ全体で強い結果を示す。
Panlex拡張は一般に3-way分類の語彙カバーを拡大するが、 unseen low-resource languages への影響はニュアンスがあり英語中心のソース言語の場合限定的なこともある。
コードスイッチ文は語彙拡張とフィルタリングから恩恵を受け、二値分類でLLMsやSSTベースのベースラインを上回り、いくつかの3-wayケースでLLMの性能に近づくまたは上回る。
回帰ベースの事前学習は二値分類でより良い傾向、分類ベースは3-way分類で優れる；中立境界の扱いは一部のモデル（例：mT5）で難易度が高い。
本アプローチは、モデルが見ていないLanguageにも reasonable ゼロショット転送を示し、語彙ベースの事前学習による多言語一般化の改善を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。