QUICK REVIEW

[論文レビュー] NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual Sentiment Analysis

Shamsuddeen Hassan Muhammad, David Ifeoluwa Adelani|arXiv (Cornell University)|Jan 20, 2022

Sentiment Analysis and Opinion Mining被引用数 57

ひとこと要約

tldr: NaijaSenti は、Hausa、Igbo、Nigerian-Pidgin、 Yorùbá 向けの大規模な手動注釈付き Twitter 感情データセットを初めて導入し（各言語約 30k ツイート）、ベースラインモデルと言語適応技術を提供します。本研究は、言語固有モデルと LAFT がこれらの低リソースのナイジェリア諸語の感情分類を改善することを示しています。

ABSTRACT

Sentiment analysis is one of the most widely studied applications in NLP, but most work focuses on languages with large amounts of data. We introduce the first large-scale human-annotated Twitter sentiment dataset for the four most widely spoken languages in Nigeria (Hausa, Igbo, Nigerian-Pidgin, and Yorùbá ) consisting of around 30,000 annotated tweets per language (and 14,000 for Nigerian-Pidgin), including a significant fraction of code-mixed tweets. We propose text collection, filtering, processing and labeling methods that enable us to create datasets for these low-resource languages. We evaluate a rangeof pre-trained models and transfer strategies on the dataset. We find that language-specific models and language-adaptivefine-tuning generally perform best. We release the datasets, trained models, sentiment lexicons, and code to incentivizeresearch on sentiment analysis in under-represented languages.

研究の動機と目的

四大ナイジェリア語（Hausa、Igbo、Nigerian-Pidgin、Yorùbá）の大規模で手動注釈された感情データセットを作成する。
言語資源のギャップに対処し、低リソースのナイジェリア諸語でコード混合および単言語感情分析を可能にする。
感情語彙集を提供し、データセット、モデル、コードを公開して不足言語の研究を促進する。
NaijaSenti で転移学習と多言語モデリング戦略を評価するベンチマーク実験を開発する。

提案手法

Twitter API の言語サポートが欠如している場合、ストップワード、絵文字、ハッシュタグ、言語/位置情報フィルタリングを用いたヒューリスティックなクロールによるデータ収集。
ネイティブ話者による5分類スキーム（POS, NEG, NEU, MIX, IND）での手動注釈とゴールドラベルを得るための審判。
言語特有の感情語彙の作成と NRC および AFFIN 語彙の半自動翻訳を人の検証を伴って実施。
複数の多言語 PLM（AfriBERTa、mBERT、XLM-R、RemBERT、mDeBERTaV3）を、言語内ファインチューニング、LAFT、マルチタスク設定の下で評価。
英語 SemEval 2017 からナイジェリア語へのクロスリンガルゼロショット転移の探索。
語彙増強とドメイン適応（Twitter 対一般）を組み合わせた言語適応ファインチューニング（LAFT）で性能を向上。

実験結果

リサーチクエスチョン

RQ1四つのナイジェリア語（Hausa、Igbo、Nigerian-Pidgin、Yorùbá）の大規模感情データセットの品質と特徴は何か？
RQ2最先端の多言語PLMはこれらの言語の感情分類でどのように性能を示すか、言語適応ファインチューニングは役立つか？
RQ31つの多言語モデルが4言語すべての感情分類を効果的に処理できるか？
RQ4英語からこれらのナイジェリア語へのクロスリンガル/ゼロショット転移に実質的な利点はあるか？
RQ5コード混合とダイアクリティクスが注釈とモデル性能に与える影響は何か？

主な発見

NaijaSenti は言語ごとにおおよそ 30k の注釈付きツイートを含む（Hausa、Igbo、Nigerian-Pidgin、Yorùbá）。
コード混合が蔓延しており、Igbo は約 43% のコード混合コンテンツを示す； Yorùbá と Igbo のダイアクリティクスは音調言語でラベル付けに影響を与える。
AfriBERTa-large と XLM-R-base+LAFT は言語を跨ぐ平均F1が高く（おおよそ 78% 程度）、LAFT は一般-domainの事前学習で特に利得をもたらす。
ゼロショット転移 from English SemEval 2017 to the four Nigerian languages yields substantial gains for AfriBERTa and RemBERT; AfriBERTa often provides the best zero-shot performance.
Human evaluation on 200 tweets shows micro-F1 around 0.75–0.85 and MCC around 0.63–0.77 across languages, validating dataset reliability.
A single multilingual model (AfriBERTa or mDeBERTaV3) can approach monolingual performance, enabling practical deployment for all four languages.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。