QUICK REVIEW

[論文レビュー] LLMs in Biomedicine: A study on clinical Named Entity Recognition

Masoud Monajatipoor, Jiaxin Yang|arXiv (Cornell University)|Apr 10, 2024

Topic Modeling被引用数 10

ひとこと要約

本論文は、LLMを用いた臨床NERを改善するためのプロンプト設計、文脈内の例の選択、および検索拡張技術を検証し、TANL/DICE形式と外部知識ベースであるUMLSのようなものを用いた少数ショットおよびゼロショット設定で顕著なF1向上を示します。

ABSTRACT

Large Language Models (LLMs) demonstrate remarkable versatility in various NLP tasks but encounter distinct challenges in biomedical due to the complexities of language and data scarcity. This paper investigates LLMs application in the biomedical domain by exploring strategies to enhance their performance for the NER task. Our study reveals the importance of meticulously designed prompts in the biomedical. Strategic selection of in-context examples yields a marked improvement, offering ~15-20\% increase in F1 score across all benchmark datasets for biomedical few-shot NER. Additionally, our results indicate that integrating external biomedical knowledge via prompting strategies can enhance the proficiency of general-purpose LLMs to meet the specialized needs of biomedical NER. Leveraging a medical knowledge base, our proposed method, DiRAG, inspired by Retrieval-Augmented Generation (RAG), can boost the zero-shot F1 score of LLMs for biomedical NER. Code is released at \url{https://github.com/masoud-monajati/LLM_Bio_NER}

研究の動機と目的

プロンプト形式（TANL vs DICE）がデータセット（I2B2, NCBI-disease, BC2GM）全体の生体医療NER性能にどのように影響するかを評価する。
文脈内学習の例選択、特に生物医療エンコーダ（BioClinicalBERT, BioClinicalRoBERTa など）を用いた最近傍ベースのKATEの影響を評価する。
閉源L型モデル（GPT-4, GPT-3.5-turbo）とファインチューニング済みオープンソースモデル（LoRA-finetuned Llama2-7B）の精度とコストを比較する。
prompting戦略を介した外部知識の統合が一般的なLLMと医療NERニーズを橋渡しするかを調査する。
UMLSを活用してゼロショット臨床NERを改善するデータ拡張手法（DiRAG）を提案する。

提案手法

生物医療NERに適応したTANLおよびDICEプロンプト形式で実験を行う。
生物医療エンコーダ（BioClinicalBERT, BioClinicalRoBERTa など）を用いたランダム vs 最近傍ベースの例選択による文脈内学習を体系的に比較する。
性能とコストの観点からオープンソースのファインチューニング（LoRA）とAPIベースの文脈内学習を比較する。
入力を大規模言語モデルに問合せる前にUMLSを用いて入力を拡張するDictionary-Infused Retrieval-Augmented Generation（DiRAG）を開発する。
I2B2、NCBI-disease、BC2GMデータセットでゼロショットと少数ショットNERを評価する。API料金を用いてコストを分析する。

実験結果

リサーチクエスチョン

RQ1TANLおよびDICEの入力出力形式は、データセットとモデルサイズ全体で生体医療NERの性能にどのように影響するか？
RQ2生物医療エンコーダを用いた戦略的な文脈内例選択（KATE）は、ランダム選択よりNER結果を改善するか？
RQ3臨床NERにおける精度とコストの点で、 promptingを用いた閉源LLMとファインチューニング済みオープンソースモデルのトレードオフはどのようか？
RQ4DiRAGを用いたUMLSなどの外部臨床知識によってゼロショット臨床NERの性能は改善されるか？
RQ5UMLSベースの拡張を異なる生物医薬分野に適用する際の制限は何か？

主な発見

プロンプト設計は、データセットとモデルサイズ全体において生体医療NERの結果に大きく影響する。
生物医療エンコーダを用いたKATEは、ランダムな文脈内例選択よりも顕著に性能を上回る。
GPT-4とKATEおよび生物医療エンコーダの組み合わせはI2B2およびBC2GMで強い結果を達成し、ファインチューニング済みのLlama2-7BはNCBI-diseaseで強い結果を示す。
DiRAGはGPT-4およびGPT-3.5-turboでI2B2とNCBI-diseaseのゼロショットNERを改善するが、有効性は使用する知識ベース（UMLSベース）に依存する。
IGMベースのコスト検討は、GPT-4とKATEの組み合わせが高コストながら高精度を提供する一方、GPT-3.5-turboとKATEはコスト効率が高い。Llama2-7Bのファインチューニングはデータセット次第でコストが高くなる場合がある、または安価になる場合がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。