QUICK REVIEW

[論文レビュー] Navigating Prompt Complexity for Zero-Shot Classification: A Study of Large Language Models in Computational Social Science

Yida Mu, Ben P. Wu|arXiv (Cornell University)|May 23, 2023

Topic Modeling被引用数 13

ひとこと要約

ゼロショット設定において、手元の指示調整済みLLMs（GPT-3.5-turboおよびOpenAssistant-LLaMA）は、六つのCSS分類タスクで微調整済みのBERT-largeに比べて性能が劣る。一方で、プロンプト設計と同義語のバリエーションが精度やF1スコアに大きく影響する可能性がある。

ABSTRACT

Instruction-tuned Large Language Models (LLMs) have exhibited impressive language understanding and the capacity to generate responses that follow specific prompts. However, due to the computational demands associated with training these models, their applications often adopt a zero-shot setting. In this paper, we evaluate the zero-shot performance of two publicly accessible LLMs, ChatGPT and OpenAssistant, in the context of six Computational Social Science classification tasks, while also investigating the effects of various prompting strategies. Our experiments investigate the impact of prompt complexity, including the effect of incorporating label definitions into the prompt; use of synonyms for label names; and the influence of integrating past memories during foundation model training. The findings indicate that in a zero-shot setting, current LLMs are unable to match the performance of smaller, fine-tuned baseline transformer models (such as BERT-large). Additionally, we find that different prompting strategies can significantly affect classification accuracy, with variations in accuracy and F1 scores exceeding 10\%.

研究の動機と目的

六つのCSS分類タスクに対するGPT-3.5-turboとOpenAssistant-LLaMAのゼロショット性能を評価する。
ゼロショットLLMの性能を、ロジスティック回帰ベースラインおよび微調整済みBERT-largeベースラインと比較する。
指示、タスク/ラベル説明、Few-shotプロンプト、メモリリコールなどのプロンプト戦略を体系的に評価し、それらが性能に与える影響を検討する。
データリーク／メモリリコールのリスクや、異なるプロンプト下でのLLM出力の安定性などを探る。

提案手法

訓練／テスト分割を用いて、英語の六つのソーシャルメディアデータセット（Complaint, Vaccine Stance, Bragging, Rumor Stance, Sarcasm, Hate Speech）を評価する。
プロンプト戦略をテストする：Basic Instruction、Task/Label Description、Few-shot、Memory Recall、そしてSynonymベースのバリアント。
ゼロショットLLM（GPT-3.5-turboとOA-LLaMA）を、TF-IDFを用いたロジスティック回帰と微調整済みBERT-largeベースラインと比較する。
再現性を確保するため、低温度設定でLLMsを動作させる；ベースラインは3つの乱数シードで実行し、Accuracyとmacro-F1を報告する。
Synonyms実験では、クラスラベルを同義語に置換し、Ensemble Majority、Ensemble All Agreedなどのアンサンブル手法を適用する。
arXivの論文タイトルを用いたメモリリコールプロンプトを検討し、潜在的なデータリークの懸念を評価する。

実験結果

リサーチクエスチョン

RQ1RQ1: ソーシャルメディア分類タスクにおいて、LLMはゼロショットでどの程度の性能を達成できるか、微調整済みベースラインと比較してどうか？
RQ2RQ2: ソーシャルメディア分類タスクに対して、どのLLMプロンプト戦略が最良のゼロショット性能をもたらすか？
RQ3RQ3: これらのプロンプト戦略の使用によりどのようなリスク（メモリリコールやデータリークの可能性を含む）が生じるか？

主な発見

ゼロショット設定のLLMsは一般にロジスティック回帰を上回るが、ほとんどのタスクで微調整済みのBERT-largeには及ばないことが多い。
GPT-3.5-turboは全体的にF1-macroがOpenAssistant-LLaMAより高い傾向だが、OAは不均衡データセットの一部で精度の点でGPTを上回ることがある。
シンプルなプロンプトは複雑なプロンプトと同等かそれ以上の性能を示すことが多い。ラベルの追加、タスク説明、few-shotの例を加えるとノイズを招いたり性能が低下することがある。
クラスラベルの同義語を用いると、データセット全体でOAの性能を大幅に向上させることができる（Braggingを除く）；同義語を用いたアンサンブル手法はさらなるロバスト性の向上につながる。
メモリリコールプロンプト（例：arXiv論文タイトルを含む）により、データリークのリスクとメモリ効果の可能性が示され、ゼロショット評価における慎重さを促す。
全体として、LLMsはデータ注釈の補助としての潜在性を示すが、慎重なプロンプト設計と制約・コストの認識が必要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。