QUICK REVIEW

[論文レビュー] Large language models for aspect-based sentiment analysis

Simmering, Paul F., Paavo Huoviala|arXiv (Cornell University)|Oct 27, 2023

Topic Modeling被引用数 12

ひとこと要約

ファインチューニングされた GPT-3.5 は SemEval-2014 ABSA ジョイントタスクで最先端の 83.8 F1 を達成し、GPT-4 および InstructABSA と比較して費用対性能の良好なプロファイルを示す。ゼロショット/少数ショットのプロンプトは一部の設定で有効だが、ファインチューニングによりプロンプトの必要性は大幅に低減する。

ABSTRACT

Large language models (LLMs) offer unprecedented text completion capabilities. As general models, they can fulfill a wide range of roles, including those of more specialized models. We assess the performance of GPT-4 and GPT-3.5 in zero shot, few shot and fine-tuned settings on the aspect-based sentiment analysis (ABSA) task. Fine-tuned GPT-3.5 achieves a state-of-the-art F1 score of 83.8 on the joint aspect term extraction and polarity classification task of the SemEval-2014 Task 4, improving upon InstructABSA [@scaria_instructabsa_2023] by 5.7%. However, this comes at the price of 1000 times more model parameters and thus increased inference cost. We discuss the the cost-performance trade-offs of different models, and analyze the typical errors that they make. Our results also indicate that detailed prompts improve performance in zero-shot and few-shot settings but are not necessary for fine-tuned models. This evidence is relevant for practioners that are faced with the choice of prompt engineering versus fine-tuning when using LLMs for ABSA.

研究の動機と目的

ゼロショット、少数ショット、ファインチューニング設定の下で、ATE（アスペクト用語抽出）と極性分類を結ぶ ABSA タスクにおける GPT-4 および GPT-3.5 の性能を評価する。

提案手法

F1 を主要指標として、ノートパソコンとレストランのレビューを対象とする SemEval-2014 ABSA ベンチマークで評価する。
複数のプロンプト variations、インコンテキストの例の数、OpenAI API を介した GPT-3.5 のファインチューニングを試す。
モデル出力を標準化するために JSON スキーマと OpenAI のファンクションコールを使用する。
強力なベースラインとして InstructABSA と比較する。
モデル間の誤りタイプと費用対性能のトレードオフを分析する。
ファインチューニング済みモデルに詳細なプロンプトが必要かを検討する。

Figure 1: Overview of experimental setup

実験結果

リサーチクエスチョン

RQ1GPT-4、GPT-3.5（ゼロショット/少数ショット）、およびファインチューニング済み GPT-3.5 は SemEval-2014 の ABSA における結合 ATE（アスペクト用語抽出）と極性分類タスクでどのように性能を示すか？
RQ2プロンプト設計、インコンテキスト例、およびファインチューニングが ABSA の性能とコストに与える影響は何か？
RQ3ファインチューニング済み GPT-3.5 モデルは SemEval-2014 ABSA ジョイントタスクにおいて従来の最先端（InstructABSA）を上回るか？
RQ4LLM が ABSA で示すエラーパターンは何か、ファインチューニングは偽陽性と偽陰性にどう影響するか？
RQ5LLM を用いた ABSA において、プロンプト使用とファインチューニングの経済的トレードオフ（コスト対 F1）はどうか？

主な発見

ファインチューニング済み GPT-3.5 は SemEval-2014 ジョイント ABSA タスクで 83.8 F1 を達成し、InstructABSA を 5.7% 上回る。
GPT-3.5 と GPT-4 は異なる費用対性能プロファイルを持ち、ファインチューニング済み GPT-3.5 は低コストで高い性能を提供する。
詳細なプロンプトは一部の設定でゼロショットおよび少数ショットの結果を改善するが、ファインチューニング済みモデルには必須ではない。
ゼロショットの GPT-4 は GPT-3.5 を下回ることがあり、インコンテキストの例は GPT-4 を競争力のあるレベルに引き上げる。
エラー分析では、主な改善はゴールドではないアスペクト用語を予測する偽陽性の削減と、用語が正しく抽出されたときの極性分類の改善から生じる。
ファインチューニング済み GPT-3.5 は特定のサブタイプで偽陽性を最大約88%削減し、アスペクト用語抽出の精度を高める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。