Skip to main content
QUICK REVIEW

[論文レビュー] Zero- and Few-Shot Prompting with LLMs: A Comparative Study with Fine-tuned Models for Bangla Sentiment Analysis

Md. Arid Hasan, Shudipta Das|arXiv (Cornell University)|Aug 21, 2023
Sentiment Analysis and Opinion Mining被引用数 25
ひとこと要約

本論文は大規模なBangla感情データセット(MUBASE)を構築し、LLMのゼロ-/少数ショット promptingをファインチューニングモデルと比較した結果、モノリンガルBanglaのファインチューニングモデルがこのタスクでは一般的にLLMsより優れていることを示す。

ABSTRACT

The rapid expansion of the digital world has propelled sentiment analysis into a critical tool across diverse sectors such as marketing, politics, customer service, and healthcare. While there have been significant advancements in sentiment analysis for widely spoken languages, low-resource languages, such as Bangla, remain largely under-researched due to resource constraints. Furthermore, the recent unprecedented performance of Large Language Models (LLMs) in various applications highlights the need to evaluate them in the context of low-resource languages. In this study, we present a sizeable manually annotated dataset encompassing 33,606 Bangla news tweets and Facebook comments. We also investigate zero- and few-shot in-context learning with several language models, including Flan-T5, GPT-4, and Bloomz, offering a comparative analysis against fine-tuned models. Our findings suggest that monolingual transformer-based models consistently outperform other models, even in zero and few-shot scenarios. To foster continued exploration, we intend to make this dataset and our research tools publicly available to the broader research community.

研究の動機と目的

  • ソーシャルメディアから手作業でラベル付けされた最大級のBangla感情データセットの1つを作成する(MUBASE)。
  • LLM(Flan-T5、GPT-4、Bloomz)のゼロ-shotおよび少数-shot promptingをファインチューニング済みモデルと比較評価する。
  • promptingのバリエーションとモデルタイプがBangla感情分類の性能に与える影響を分析する。
  • 低資源のBangla感情分析においてモノリンガル Banglaモデルが多言語モデルやLLMベースの手法より優れているかを評価する。
  • データセットとツールの公開計画を示し、今後の研究を促進する。

提案手法

  • Facebookの投稿とツイートからBangla感情データセット(MUBASE)を収集・注釈付けする(クリーンアップ後 33,606エントリ)。
  • BanglaBERT、mBERT、XLM-RoBERTa、Bloomz、BanglaBERTなどのモデルをBanglaデータ上でファインチューニングする。
  • GPTで埋め込みを抽出し、フィードフォワード分類器をベースライン埋め込み手法として訓練する。
  • 慎重に設計したBangla-EnglishプロンプトとネイティブBanglaプロンプトを用いて、LLM(Flan-T5、Bloomz、GPT-4)のゼロ-shotおよび少数-shot promptingを評価する。
  • GPT-4とBloomzに対してMMR選択の exemplarsを用いた0-shotおよび3-shot/5-shot promptingを使用し、Bloomzの出力を強化するためにアンサンブル多数決を活用する。
  • ベースライン(ランダム、過半数など)と比較し、層化された訓練/開発/テスト分割(70/10/20)で精度、加重適合率、再現率、F1を報告する。

実験結果

リサーチクエスチョン

  • RQ1ファインチューニング済みモデルと比較した場合、Bangla感情分析におけるLLMのゼロ-shotおよび少数-shot promptingはどの程度機能するか?
  • RQ2モノリンガルBanglaモデル(例:BanglaBERT)はBangla感情タスクにおいて多言語モデルやLLMベースのアプローチより優れているか?
  • RQ3プロンプト設計とモデルサイズがゼロ-/少数-shotのBangla感情分類に与える影響は?
  • RQ4モデル間のアンサンブル予測はLLMベースのアプローチの性能を向上させるか?
  • RQ5Bangla感情分析において母語 promptingは英語 promptingと同等に効果的か?

主な発見

  • ファインチューニング済みモデルは設定を問わず、ゼロ-/少数-shotのLLM promptingを一貫して上回る。
  • テスト対象モデルの中で、モノリンガルのBanglaBERTベースのファインチューニングが最良の結果を示す。
  • ゼロ-shotのGPT-4はモノリンガルのファインチューニングモデルと比較して競争力はあるが支配的ではない。
  • Bloomzはゼロ-/少数-shot設定で時折GPT-4を上回るが、中立クラスの予測に苦戦し、GPT-4はポジティブの予測に苦戦する。
  • Bloomz設定全体でのアンサンブル多数決により加重F1が5.73ポイント向上。
  • MUBASEとSentiNoB(Bangla NoB)を組み合わせて訓練データを増強しBanglaBERTをファインチューニングすると、さらに約1.41%のF1が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。