Skip to main content
QUICK REVIEW

[論文レビュー] AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages

Shamsuddeen Hassan Muhammad, Idris Abdulmumin|arXiv (Cornell University)|Feb 17, 2023
Sentiment Analysis and Opinion Mining被引用数 47
ひとこと要約

AfriSenti は 14 言語の最大規模の多言語 Twitter 感情データセットを提供し、ベースラインの多言語モデルとアフリカ中心の PLM を評価して、言語間転移およびゼロショット転移研究を可能にします。

ABSTRACT

Africa is home to over 2,000 languages from more than six language families and has the highest linguistic diversity among all continents. These include 75 languages with at least one million speakers each. Yet, there is little NLP research conducted on African languages. Crucial to enabling such research is the availability of high-quality annotated datasets. In this paper, we introduce AfriSenti, a sentiment analysis benchmark that contains a total of >110,000 tweets in 14 African languages (Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, and Yorùbá) from four language families. The tweets were annotated by native speakers and used in the AfriSenti-SemEval shared task (The AfriSenti Shared Task had over 200 participants. See website at https://afrisenti-semeval.github.io). We describe the data collection methodology, annotation process, and the challenges we dealt with when curating each dataset. We further report baseline experiments conducted on the different datasets and discuss their usefulness.

研究の動機と目的

  • サブサー・アフリカ言語での感情分析リソースの不足を強調し、14言語にまたがる大規模で注釈付きの Twitter データセットを作成する。
  • 多言語のアフリカ言語感情データのデータ収集、注釈、品質管理の課題を説明する。
  • 多言語およびアフリカ中心の PLM を用いたベースライン実験を提供し、性能ベンチマークを確立する。
  • アフリカ言語NLP のさらなる研究を可能にするデータセット、感情語彙、リソースを公開する。

提案手法

  • アフリカ言語の言語 tagging が制限されているため、所在地ベースおよび語彙ベースのヒューリスティックを用いて Twitter データを収集する。
  • 三値の感情ラベル(ポジティブ、ネガティブ、ニュートラル)でツイートを注釈付けし、過半数投票で決定する。エチオピア諸語については個別ラベルを提供する。
  • モノリンガルなベースラインを、 massively multilingual PLMs(XLM-R、mDeBERTaV3)およびアフリカ中心モデル(AfriBERTa、AfroXLMR、XLM-T)で評価する。
  • 複合データセットでの多言語トレーニングを実施し、ソース言語から Oromo と Tigrinya へのゼロショット転移を評価する。
  • データセットと語彙を公開する。データ収集、注釈の課題、倫理的配慮について論じる。
Figure 1: Countries and languages represented in AfriSenti: Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, and Yorùbá.
Figure 1: Countries and languages represented in AfriSenti: Amharic, Algerian Arabic, Hausa, Igbo, Kinyarwanda, Moroccan Arabic, Mozambican Portuguese, Nigerian Pidgin, Oromo, Swahili, Tigrinya, Twi, Xitsonga, and Yorùbá.

実験結果

リサーチクエスチョン

  • RQ1アフリカ言語の感情分析リソースは何が存在し、14言語にわたって大規模で注釈付きの Twitter データセットを作成するにはどうすればよいか。
  • RQ2モノ言語、多言語、跨言語転移モデルは AfriSenti 言語でどのような性能を示すか。
  • RQ3多様なアフリカ諸言語における感情データの収集、注釈、整合性の課題(ダイグラフィア、コードスイッチを含む)は何か。
  • RQ4関連言語間(例: Hausa、Amharic)でのゼロショット対象の Oromo および Tigrinya に対する跨言語転移はどの程度有効か。

主な発見

ModelF1
AfriBERTa-large64.7
XLM-R-base64.3
AfroXLMR-base68.4
mDeBERTaV3-base66.1
XLM-T-base65.9
XLM-R-large66.9
AfroXLMR-large71.2
  • AfriSenti は 14 言語にわたる Afro-Asiatic、Niger-Congo、English Creole、Indo-European ファミリを横断する 110k+ のツイートを含む。
  • AfroXLMR-large は評価されたモデルの中で最も良い総合性能を示し、結合テストセット上の平均 F1 は約 71.2。
  • 多言語アフロ中心モデルは本研究で一般に XLM-R のバリアントより上回る傾向があり、言語/ドメイン特化の事前学習とモデル規模の利点を示す。
  • Oromo および Tigrinya へのゼロショット転送は、Oromo の源言語として Hausa または Amharic を、Tigrinya の源言語として Yoruba または Hausa を用いると最も強く、言語的関連性とデータ規模の影響を反映している。
  • モノリンガルのベースラインは言語ごとに異なり、 AfroXLMR-base および AfroXLMR-large はいくつかの AfriSenti 言語で強い結果を示し、一部のアラビア語・ポルトガル語方言言語で顕著な成長を示す。
Table 1: Examples of tweets and their sentiments in the different AfriSenti Languages. Note that the collected tweets in Moroccan Arabic/Darija ( ary ) are written in both Arabic and Latin scripts. The translations can be found in the Appendix ( Table 10 ).
Table 1: Examples of tweets and their sentiments in the different AfriSenti Languages. Note that the collected tweets in Moroccan Arabic/Darija ( ary ) are written in both Arabic and Latin scripts. The translations can be found in the Appendix ( Table 10 ).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。