QUICK REVIEW

[論文レビュー] Zero- and Few-Shot Prompting with LLMs: A Comparative Study with Fine-tuned Models for Bangla Sentiment Analysis

Md. Arid Hasan, Shudipta Das|arXiv (Cornell University)|Aug 21, 2023

Sentiment Analysis and Opinion Mining被引用数 25

ひとこと要約

本論文は大規模なBangla感情データセット（MUBASE）を構築し、LLMのゼロ-/少数ショット promptingをファインチューニングモデルと比較した結果、モノリンガルBanglaのファインチューニングモデルがこのタスクでは一般的にLLMsより優れていることを示す。

ABSTRACT

The rapid expansion of the digital world has propelled sentiment analysis into a critical tool across diverse sectors such as marketing, politics, customer service, and healthcare. While there have been significant advancements in sentiment analysis for widely spoken languages, low-resource languages, such as Bangla, remain largely under-researched due to resource constraints. Furthermore, the recent unprecedented performance of Large Language Models (LLMs) in various applications highlights the need to evaluate them in the context of low-resource languages. In this study, we present a sizeable manually annotated dataset encompassing 33,606 Bangla news tweets and Facebook comments. We also investigate zero- and few-shot in-context learning with several language models, including Flan-T5, GPT-4, and Bloomz, offering a comparative analysis against fine-tuned models. Our findings suggest that monolingual transformer-based models consistently outperform other models, even in zero and few-shot scenarios. To foster continued exploration, we intend to make this dataset and our research tools publicly available to the broader research community.

研究の動機と目的

ソーシャルメディアから手作業でラベル付けされた最大級のBangla感情データセットの1つを作成する（MUBASE）。
LLM（Flan-T5、GPT-4、Bloomz）のゼロ-shotおよび少数-shot promptingをファインチューニング済みモデルと比較評価する。
promptingのバリエーションとモデルタイプがBangla感情分類の性能に与える影響を分析する。
低資源のBangla感情分析においてモノリンガル Banglaモデルが多言語モデルやLLMベースの手法より優れているかを評価する。
データセットとツールの公開計画を示し、今後の研究を促進する。

提案手法

Facebookの投稿とツイートからBangla感情データセット（MUBASE）を収集・注釈付けする（クリーンアップ後 33,606エントリ）。
BanglaBERT、mBERT、XLM-RoBERTa、Bloomz、BanglaBERTなどのモデルをBanglaデータ上でファインチューニングする。
GPTで埋め込みを抽出し、フィードフォワード分類器をベースライン埋め込み手法として訓練する。
慎重に設計したBangla-EnglishプロンプトとネイティブBanglaプロンプトを用いて、LLM（Flan-T5、Bloomz、GPT-4）のゼロ-shotおよび少数-shot promptingを評価する。
GPT-4とBloomzに対してMMR選択の exemplarsを用いた0-shotおよび3-shot/5-shot promptingを使用し、Bloomzの出力を強化するためにアンサンブル多数決を活用する。
ベースライン（ランダム、過半数など）と比較し、層化された訓練/開発/テスト分割（70/10/20）で精度、加重適合率、再現率、F1を報告する。

実験結果

リサーチクエスチョン

RQ1ファインチューニング済みモデルと比較した場合、Bangla感情分析におけるLLMのゼロ-shotおよび少数-shot promptingはどの程度機能するか？
RQ2モノリンガルBanglaモデル（例：BanglaBERT）はBangla感情タスクにおいて多言語モデルやLLMベースのアプローチより優れているか？
RQ3プロンプト設計とモデルサイズがゼロ-/少数-shotのBangla感情分類に与える影響は？
RQ4モデル間のアンサンブル予測はLLMベースのアプローチの性能を向上させるか？
RQ5Bangla感情分析において母語 promptingは英語 promptingと同等に効果的か？

主な発見

ファインチューニング済みモデルは設定を問わず、ゼロ-/少数-shotのLLM promptingを一貫して上回る。
テスト対象モデルの中で、モノリンガルのBanglaBERTベースのファインチューニングが最良の結果を示す。
ゼロ-shotのGPT-4はモノリンガルのファインチューニングモデルと比較して競争力はあるが支配的ではない。
Bloomzはゼロ-/少数-shot設定で時折GPT-4を上回るが、中立クラスの予測に苦戦し、GPT-4はポジティブの予測に苦戦する。
Bloomz設定全体でのアンサンブル多数決により加重F1が5.73ポイント向上。
MUBASEとSentiNoB（Bangla NoB）を組み合わせて訓練データを増強しBanglaBERTをファインチューニングすると、さらに約1.41%のF1が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。