[論文レビュー] Zero- and Few-Shot Prompting with LLMs: A Comparative Study with Fine-tuned Models for Bangla Sentiment Analysis
本論文は大規模なBangla感情データセット(MUBASE)を構築し、LLMのゼロ-/少数ショット promptingをファインチューニングモデルと比較した結果、モノリンガルBanglaのファインチューニングモデルがこのタスクでは一般的にLLMsより優れていることを示す。
The rapid expansion of the digital world has propelled sentiment analysis into a critical tool across diverse sectors such as marketing, politics, customer service, and healthcare. While there have been significant advancements in sentiment analysis for widely spoken languages, low-resource languages, such as Bangla, remain largely under-researched due to resource constraints. Furthermore, the recent unprecedented performance of Large Language Models (LLMs) in various applications highlights the need to evaluate them in the context of low-resource languages. In this study, we present a sizeable manually annotated dataset encompassing 33,606 Bangla news tweets and Facebook comments. We also investigate zero- and few-shot in-context learning with several language models, including Flan-T5, GPT-4, and Bloomz, offering a comparative analysis against fine-tuned models. Our findings suggest that monolingual transformer-based models consistently outperform other models, even in zero and few-shot scenarios. To foster continued exploration, we intend to make this dataset and our research tools publicly available to the broader research community.
研究の動機と目的
- ソーシャルメディアから手作業でラベル付けされた最大級のBangla感情データセットの1つを作成する(MUBASE)。
- LLM(Flan-T5、GPT-4、Bloomz)のゼロ-shotおよび少数-shot promptingをファインチューニング済みモデルと比較評価する。
- promptingのバリエーションとモデルタイプがBangla感情分類の性能に与える影響を分析する。
- 低資源のBangla感情分析においてモノリンガル Banglaモデルが多言語モデルやLLMベースの手法より優れているかを評価する。
- データセットとツールの公開計画を示し、今後の研究を促進する。
提案手法
- Facebookの投稿とツイートからBangla感情データセット(MUBASE)を収集・注釈付けする(クリーンアップ後 33,606エントリ)。
- BanglaBERT、mBERT、XLM-RoBERTa、Bloomz、BanglaBERTなどのモデルをBanglaデータ上でファインチューニングする。
- GPTで埋め込みを抽出し、フィードフォワード分類器をベースライン埋め込み手法として訓練する。
- 慎重に設計したBangla-EnglishプロンプトとネイティブBanglaプロンプトを用いて、LLM(Flan-T5、Bloomz、GPT-4)のゼロ-shotおよび少数-shot promptingを評価する。
- GPT-4とBloomzに対してMMR選択の exemplarsを用いた0-shotおよび3-shot/5-shot promptingを使用し、Bloomzの出力を強化するためにアンサンブル多数決を活用する。
- ベースライン(ランダム、過半数など)と比較し、層化された訓練/開発/テスト分割(70/10/20)で精度、加重適合率、再現率、F1を報告する。
実験結果
リサーチクエスチョン
- RQ1ファインチューニング済みモデルと比較した場合、Bangla感情分析におけるLLMのゼロ-shotおよび少数-shot promptingはどの程度機能するか?
- RQ2モノリンガルBanglaモデル(例:BanglaBERT)はBangla感情タスクにおいて多言語モデルやLLMベースのアプローチより優れているか?
- RQ3プロンプト設計とモデルサイズがゼロ-/少数-shotのBangla感情分類に与える影響は?
- RQ4モデル間のアンサンブル予測はLLMベースのアプローチの性能を向上させるか?
- RQ5Bangla感情分析において母語 promptingは英語 promptingと同等に効果的か?
主な発見
- ファインチューニング済みモデルは設定を問わず、ゼロ-/少数-shotのLLM promptingを一貫して上回る。
- テスト対象モデルの中で、モノリンガルのBanglaBERTベースのファインチューニングが最良の結果を示す。
- ゼロ-shotのGPT-4はモノリンガルのファインチューニングモデルと比較して競争力はあるが支配的ではない。
- Bloomzはゼロ-/少数-shot設定で時折GPT-4を上回るが、中立クラスの予測に苦戦し、GPT-4はポジティブの予測に苦戦する。
- Bloomz設定全体でのアンサンブル多数決により加重F1が5.73ポイント向上。
- MUBASEとSentiNoB(Bangla NoB)を組み合わせて訓練データを増強しBanglaBERTをファインチューニングすると、さらに約1.41%のF1が向上する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。