[論文レビュー] Sentiment Analysis in the Era of Large Language Models: A Reality Check
本論文は、13の感情分析タスクを横断する26のデータセットでLLMsを評価し、zero-shotとfew-shotのLLM性能を小規模なドメイン適応モデルと比較し、現実的なSA評価の新しいベンチマークとしてSentiEvalを提案します。
Sentiment analysis (SA) has been a long-standing research area in natural language processing. It can offer rich insights into human sentiments and opinions and has thus seen considerable interest from both academia and industry. With the advent of large language models (LLMs) such as ChatGPT, there is a great potential for their employment on SA problems. However, the extent to which existing LLMs can be leveraged for different sentiment analysis tasks remains unclear. This paper aims to provide a comprehensive investigation into the capabilities of LLMs in performing various sentiment analysis tasks, from conventional sentiment classification to aspect-based sentiment analysis and multifaceted analysis of subjective texts. We evaluate performance across 13 tasks on 26 datasets and compare the results against small language models (SLMs) trained on domain-specific datasets. Our study reveals that while LLMs demonstrate satisfactory performance in simpler tasks, they lag behind in more complex tasks requiring deeper understanding or structured sentiment information. However, LLMs significantly outperform SLMs in few-shot learning settings, suggesting their potential when annotation resources are limited. We also highlight the limitations of current evaluation practices in assessing LLMs' SA abilities and propose a novel benchmark, extsc{SentiEval}, for a more comprehensive and realistic evaluation. Data and code during our investigations are available at \url{https://github.com/DAMO-NLP-SG/LLM-Sentiment}.
研究の動機と目的
- 単純なSCからABSAおよびMASTまで、幅広い感情分析タスクにおいてLLMsがどれだけうまく機能するかを評価する。
- イン-domainデータ上で、小規模なドメイン適応済み言語モデルとLLMsのzero-shotおよびfew-shotの性能を比較する。
- LLMs時代における現在のSA評価慣行を批判的に評価し、より包括的なベンチマーク(SentiEval)を提案する。
- LLMベースのSAにおける再現性と今後の研究を促進するデータとコードを提供する。
提案手法
- 各データセットあたり500サンプルに上限を設けた、26データセットにまたがる13 SAタスクの体系的評価。
- オープンソースLLM(Flan-T5 XXL、Flan-UL2)およびOpenAI GPT-3.5ファミリー(ChatGPT、text-davinci-003)を、イン-domainデータで訓練された小規模言語モデル(T5 large)と比較する。
- モデル間の一貫性を確保するために、注意深く設計されたプロンプトを用いたzero-shotおよびfew-shot promptingを使用;プロンプト感度を評価するために、GPT-4生成プロンプトを含む複数のプロンプトを探索。
- 分析には標準的な自動評価指標(例: accuracy、micro-F1、macro-F1)と、細粒度ABSAタスクに対する対象的な人間評価を含む。
- ABSAのバリアント(UABSA、ASTE、ASQP)およびMASTタスク(暗黙の感情、ヘイトスピーチ、皮肉、攻撃的言語、stance、比較、感情)を評価。
- プロンプト設計の感度とそれがABSAとSCタスクに与える影響を調査;ChatGPTに観察されるRLHF関連の偏り(例: ヘイトスピーチ、皮肉、攻撃的言語)について議論。
実験結果
リサーチクエスチョン
- RQ1大規模言語モデルは、幅広い感情分析タスクでどの程度良く機能するか。
- RQ2ゼロショットおよびfew-shot設定で、大規模モデルはSAタスク全般で小規模なドメイン適応モデルを上回るのか。
- RQ3現在のSA評価慣行は、LLMベースの感情分析を評価するのに十分か、それともより包括的なベンチマークが必要か。
- RQ4LLMsをSAに適用する際の限界と落とし穴(例: プロンプト感度、タスク構造)は何か。
主な発見
- LLMsは、二値感情分類のような単純なSAタスクで満足できるゼロショット性能を示す一方、複雑または構造化されたタスク(例: ABSA)ではファインチューニング済みの小規模モデルには遅れをとる。
- ChatGPTは、SCタスクでファインチューニング済みT5モデルの約97%、MASTタスクで約83%をゼロショット設定で達成しており、強力な固有のSA能力を示すが、構造化出力には依然ギャップがある。
- Few-shot設定では、LLMsは限られた注釈でSLMを一貫して上回るが、文脈長とプロンプト設計が有効性を制約することがある。
- RLHFに適合したモデル(例: ChatGPT)は、ヘイトスピーチ、皮肉、攻撃的言語タスクで、一部のより大きな非RLHFモデルと比べて性能が低い場合があり、整合性バイアスを示唆している。
- プロンプト設計はABSAタイプのタスクに大きく影響する一方、SCタスクは相対的に感度が低いことが多い;LLMを用いたABSAでは自動指標より人間評価の方がしばしば高い性能を示す。
- 著者らは、SAテストにおけるプロンプト設計バイアスを減らし、より包括的で多様なタスク評価を可能にするベンチマークとしてSentiEvalを導入する。
- 再現性のためのデータとコードは、著者のリポジトリ(https://github.com/DAMO-NLP-SG/LLM-Sentiment)に提供されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。