Skip to main content
QUICK REVIEW

[論文レビュー] A Zero-shot and Few-shot Study of Instruction-Finetuned Large Language Models Applied to Clinical and Biomedical Tasks

Yanis Labrak, Mickaël Rouvier|arXiv (Cornell University)|Jul 22, 2023
Topic Modeling被引用数 13
ひとこと要約

この論文は、4つの instruction-tuned LLM(ChatGPT、Flan-T5 UL2、Tk-Instruct、Alpaca)を、PubMedBERT と比較し、ゼロショットおよび Few-shot 設定で 13 の臨床/生物医療 NLP タスクを評価し、タスク固有の強みと限界を分析します。

ABSTRACT

We evaluate four state-of-the-art instruction-tuned large language models (LLMs) -- ChatGPT, Flan-T5 UL2, Tk-Instruct, and Alpaca -- on a set of 13 real-world clinical and biomedical natural language processing (NLP) tasks in English, such as named-entity recognition (NER), question-answering (QA), relation extraction (RE), etc. Our overall results demonstrate that the evaluated LLMs begin to approach performance of state-of-the-art models in zero- and few-shot scenarios for most tasks, and particularly well for the QA task, even though they have never seen examples from these tasks before. However, we observed that the classification and RE tasks perform below what can be achieved with a specifically trained model for the medical field, such as PubMedBERT. Finally, we noted that no LLM outperforms all the others on all the studied tasks, with some models being better suited for certain tasks than others.

研究の動機と目的

  • instruction-tuned LLM が、最小限のタスク例あり/なしで、多様な臨床/生物医療 NLP タスクでどの程度性能を発揮するかを評価する。
  • ChatGPT、Flan-T5 UL2、Tk-Instruct、Alpaca のゼロショットおよび Few-shot パフォーマンスを、ドメイン特化ベースライン(PubMedBERT)と比較する。
  • 医療 NLP における生成モデルのプロンプト戦略と評価課題を調査する。

提案手法

  • 臨床/生物医療タスク 13 件(CLS、QA、RE、NLI、NER)を対象に、4 つの instruction-tuned LLM と PubMedBERT を評価する。
  • 基準ベースラインと公正に比較できるよう、標準指標(Accuracy、F1)に合わせて生成出力を手動でパースする。
  • タスクの説明、入力データ、出力制約を組み合わせて、タスク別の指示をプロンプトに構築する。
  • Semantic retriever(Sentence-Transformers)を用いて、Few-shot_prompt 用の五つの類似プロンプトを選択する。
  • NER の場合に Token レベルのラベリングを保証するため、Recursive Chain-of-Thought(RCoT)を導入する。
  • ゼロショットと 5-shot プロンプトを比較し、モデル固有の強みとデータセット依存の性能を分析する。

実験結果

リサーチクエスチョン

  • RQ1instruction-tuned LLM は、実世界の臨床/生物医療 NLP タスクにおいて、ゼロショットと Few-shot 設定でどのように性能を発揮するか。
  • RQ2これらの LLM は、同じタスクでドメイン特化モデルである PubMedBERT と比べてどうか。
  • RQ3医療 NLP タスクの性能を向上させるプロンプト戦略(リトリーバル強化の Few-shot プロンプトや RCoT を含む)はどれか。
  • RQ4医療文脈において、QA 対 RE や NER など特定のタスクタイプに対して、いくつかのモデルがより適しているか。

主な発見

  • ゼロショットでは、QA タスクが LLM によって比較的強い性能を示す一方、他のタスクは一般に PubMedBERT を下回る。
  • Few-shot(5-shot)プロンプトは、いくつかのモデルにとって顕著な改善をもたらし、Alpaca はすべてのタスクで顕著な改善を示した。
  • ChatGPT と Flan-T5 UL2 は、特定のタスクで頻繁に Tk-Instruct および Alpaca より上回るが、単一のモデルがすべてのタスクで支配的ではない。
  • LLMs は多くのタスクで競合的な性能に達するが、PubMedBERT のようなドメイン特化モデルは、いくつかの分類および関係抽出タスクで依然として上回る。
  • タスクごとにモデルの強みが異なることがあり、臨床/生物医療 NLP にはタスクとモデルの組み合わせの価値があることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。