[論文レビュー] Large Language Models in the Workplace: A Case Study on Prompt Engineering for Job Type Classification
慎重に設計されたプロンプトを用いたゼロショットのGPT-3.5-turboは、卒業後の就職分類において監督付きモデルを上回り、プロンプトエンジニアリングが性能に大きな影響を与える。
This case study investigates the task of job classification in a real-world setting, where the goal is to determine whether an English-language job posting is appropriate for a graduate or entry-level position. We explore multiple approaches to text classification, including supervised approaches such as traditional models like Support Vector Machines (SVMs) and state-of-the-art deep learning methods such as DeBERTa. We compare them with Large Language Models (LLMs) used in both few-shot and zero-shot classification settings. To accomplish this task, we employ prompt engineering, a technique that involves designing prompts to guide the LLMs towards the desired output. Specifically, we evaluate the performance of two commercially available state-of-the-art GPT-3.5-based language models, text-davinci-003 and gpt-3.5-turbo. We also conduct a detailed analysis of the impact of different aspects of prompt engineering on the model's performance. Our results show that, with a well-designed prompt, a zero-shot gpt-3.5-turbo classifier outperforms all other models, achieving a 6% increase in Precision@95% Recall compared to the best supervised approach. Furthermore, we observe that the wording of the prompt is a critical factor in eliciting the appropriate "reasoning" in the model, and that seemingly minor aspects of the prompt significantly affect the model's performance.
研究の動機と目的
- 卒業適合の役割を識別するための求人投稿の自動スクリーニングを動機づける。
- 伝統的な監視式手法とLarge Language Models (LLMs)を、卒業生か非卒業生かの二値分類で比較する。
- 現実世界の設定でのLLM性能へのプロンプトエンジニアリングの影響を示す。
提案手法
- ベースラインのキーワード、SVM、ULMFiT、DeBERTa-V3分類器を評価する。
- GPT-3.5ベースのモデル(text-davinci-002/003)とGPT-3.5-turboをゼロショットおよび少数ショット設定で評価する。
- 多様なプロンプトエンジニアリング技術を適用する(システム/ユーザープロンプト、思考過程の連鎖、テンプレート、命名、強化)。”,
- 主指標としてPrecision@95%Recallを用いて性能を測定し、二次指標としてRecallとP@85%Recallを報告する。
実験結果
リサーチクエスチョン
- RQ1LLMsは95% Recall閾値でのPrecisionを従来の監視型分類器より高く達成できるか?
- RQ2このタスクに対するさまざまなプロンプトエンジニアリング戦略はLLMの性能にどのように影響するか?
- RQ3下流の分類性能に対するプロンプト設計とモデルタイプの相対的寄与度はどれくらいか?
主な発見
| Model | P@95%R | P@85%R | Recall |
|---|---|---|---|
| Keyword | 0 | 0 | 80.2 |
| SVM | 0 | 0 | 80.2 |
| ULMFiT | 63.1 | 75.4 | N/A |
| DeBERTaV3 | 79.7 | 83.2 | N/A |
| davinci-002 | 0 | 72.6 | 72.2 |
| davinci-003 | 80.4 | 80.4 | 95.6 |
| gpt-3.5 | 86.9 | 86.9 | 97 |
- 慎重に設計されたプロンプトを用いたゼロショットのGPT-3.5-turboはP@95%Rで他の全モデルを上回り、Recallは97%を達成。
- 最良の監督付きモデル(DeBERTa-V3)は79.7 P@95%Rと83.2 P@85%Rを達成するが、P@95%RではGPT-3.5-turboに遅れを取る。
- プロンプトエンジニアリングは大きな影響を持ち、最終プロンプトは91.7のF1と97%のRecallを達成する一方、ベースラインプロンプトは65.6のF1と70.6のRecall。
- システム/ユーザー指示、模擬対話、強化を追加するとかなりの向上を得られ、テンプレート制約(厳密/緩やか)はテンプレートの粘着性と性能に影響を与える。
- このタスクではFew-shot CoTプロンプトはゼロショットプロンプトを下回り、例がモデルを必要以上に偏らせる可能性を示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。