Skip to main content
QUICK REVIEW

[論文レビュー] An Empirical Evaluation of Prompting Strategies for Large Language Models in Zero-Shot Clinical Natural Language Processing

Sonish Sivarajkumar, Mark Kelley|arXiv (Cornell University)|Sep 14, 2023
Topic Modeling被引用数 10
ひとこと要約

本論文は、GPT-3.5、BARD、LLAMA2 を用いて、5つのタスクにわたりゼロショットの臨床NLPに対するプロンプト戦略を経験的に評価し、ヒューリスティックプロンプトとアンサンブルプロンプトを導入し、ゼロショットと少数ショット prompting を比較している。

ABSTRACT

Large language models (LLMs) have shown remarkable capabilities in Natural Language Processing (NLP), especially in domains where labeled data is scarce or expensive, such as clinical domain. However, to unlock the clinical knowledge hidden in these LLMs, we need to design effective prompts that can guide them to perform specific clinical NLP tasks without any task-specific training data. This is known as in-context learning, which is an art and science that requires understanding the strengths and weaknesses of different LLMs and prompt engineering approaches. In this paper, we present a comprehensive and systematic experimental study on prompt engineering for five clinical NLP tasks: Clinical Sense Disambiguation, Biomedical Evidence Extraction, Coreference Resolution, Medication Status Extraction, and Medication Attribute Extraction. We assessed the prompts proposed in recent literature, including simple prefix, simple cloze, chain of thought, and anticipatory prompts, and introduced two new types of prompts, namely heuristic prompting and ensemble prompting. We evaluated the performance of these prompts on three state-of-the-art LLMs: GPT-3.5, BARD, and LLAMA2. We also contrasted zero-shot prompting with few-shot prompting, and provide novel insights and guidelines for prompt engineering for LLMs in clinical NLP. To the best of our knowledge, this is one of the first works on the empirical evaluation of different prompt engineering approaches for clinical NLP in this era of generative AI, and we hope that it will inspire and inform future research in this area.

研究の動機と目的

  • 大規模言語モデルを用いたとき、プロンプト戦略がゼロショット臨床NLP の性能にどのように影響するかを調査する。
  • 最近の文献からのさまざまなプロンプトタイプと新しいプロンプトを体系的に比較する。
  • LLMを用いた臨床NLP におけるプロンプト設計の実践的なガイドラインを提供する。

提案手法

  • 臨床NLP の5つのタスク(Clinical Sense Disambiguation、Biomedical Evidence Extraction、Coreference Resolution、Medication Status Extraction、Medication Attribute Extraction)に対してプロンプトを評価する。
  • 単純プレフィックス、単純クローズ、チェーン・オブ・ソート(CoT)、予測的プロンプトなど、文献からのプロンプトをテストする。
  • 2種類の新しいプロンプトタイプを導入:ヒューリスティック prompting と アンサンブル prompting。
  • GPT-3.5、BARD、LLAMA2の3つの最先端LLMに対してゼロショット prompting と少数ショット prompting を比較する。
  • プロンプトアプローチの長所と短所を分析し、実用的な臨床NLP のプロンプト設計ガイドラインを導出する。

実験結果

リサーチクエスチョン

  • RQ1異なるプロンプト戦略が、複数のタスクとモデルに対してゼロショット臨床NLP の性能にどのように影響するか?
  • RQ2ヒューリスティックおよびアンサンブルプロンプトは、臨床NLP における従来のプロンプトタイプより改善をもたらすか?
  • RQ3この分野におけるゼロショットと少数ショット prompting のトレードオフはどうなるか?
  • RQ4GPT-3.5、BARD、LLAMA2 は、臨床NLP タスクに対してさまざまな prompting 戦略の下でどのように比較されるか?

主な発見

  • 最近の文献からのプロンプトは、タスクとモデルによって有効性が異なる。
  • 新規の2つのプロンプトタイプ、ヒューリスティック prompting と アンサンブル prompting を提案・評価。
  • ゼロショット prompting の性能を少数ショット prompting と対比して、臨床NLP におけるプロンプト設計の実践的ガイドラインを特定。
  • 本研究は、臨床NLP における今後のプロンプト設計研究のための洞察とガイドラインを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。