QUICK REVIEW

[論文レビュー] Benchmarking large language models for biomedical natural language processing applications and recommendations

Qingyu Chen, Yan Hu|arXiv (Cornell University)|May 10, 2023

Topic Modeling被引用数 41

ひとこと要約

本研究は、12のBioNLPベンチマークに渡って4つの大規模言語モデルを系統的に評価し、ゼロショット、少数ショット、微調整を従来のBERT/BARTの微調整と比較し、推奨事項を提示する。

ABSTRACT

The rapid growth of biomedical literature poses challenges for manual knowledge curation and synthesis. Biomedical Natural Language Processing (BioNLP) automates the process. While Large Language Models (LLMs) have shown promise in general domains, their effectiveness in BioNLP tasks remains unclear due to limited benchmarks and practical guidelines. We perform a systematic evaluation of four LLMs, GPT and LLaMA representatives on 12 BioNLP benchmarks across six applications. We compare their zero-shot, few-shot, and fine-tuning performance with traditional fine-tuning of BERT or BART models. We examine inconsistencies, missing information, hallucinations, and perform cost analysis. Here we show that traditional fine-tuning outperforms zero or few shot LLMs in most tasks. However, closed-source LLMs like GPT-4 excel in reasoning-related tasks such as medical question answering. Open source LLMs still require fine-tuning to close performance gaps. We find issues like missing information and hallucinations in LLM outputs. These results offer practical insights for applying LLMs in BioNLP.

研究の動機と目的

LLMが従来のモデルと比較してBioNLPタスクでどのように機能するかを検討する。
生物医療の文脈におけるLLMのゼロショット、少数-shot、微調整の能力を評価する。
LLM出力における不一致、欠落情報、幻覚を特定する。
BioNLPアプリケーションでのLLM使用のコスト影響を評価する。
BioNLPにおけるLLMの適用に関する実践的な推奨を提供する。

提案手法

12のBioNLPベンチマークを6つのアプリケーションで横断して、4つのLLM（GPTおよびLLaMAの代表格）を系統的に評価する。
LLMのゼロショット、少数ショット、微調整の性能を、従来のBERTまたはBARTモデルの微調整と比較する。
出力品質を不一致、欠落情報、幻覚の観点から分析する。
BioNLPタスクにおけるLLMの使用コストを分析する。

実験結果

リサーチクエスチョン

RQ1ゼロショット、少数ショット、および微調整設定で、伝統的なBERT/BARTのファインチューニングと比較して、BioNLPベンチマークでLLMはどのように機能するか。
RQ2閉域ソースのLLM（例：GPT-4）は、医療質問応答などの推論関連のBioNLPタスクにおいてより優れているか。
RQ3オープンソースのLLMは、伝統的モデルとの性能差を埋めるためにどの程度微調整を必要とするか。
RQ4BioNLPにおけるLLM出力で一般的な問題（欠落情報、幻覚）は何か。
RQ5このベンチマーク研究からBioNLPにおけるLLMの適用に関する実践的ガイドラインをどのように導けるか。

主な発見

従来の微調整は、ほとんどのBioNLPタスクでゼロショットまたは少数ショットのLLMよりも一般に優れている。
閉域ソースのLLM（GPT-4）のようなモデルは、医療質問応答などの推論関連タスクで優れている。
オープンソースのLLMは、伝統的なモデルとの性能差を埋めるためにまだ微調整を必要とする。
LLM出力には欠落情報と幻覚が含まれ、BioNLPの信頼性に影響を与える。
本研究はBioNLPにおけるLLMの適用に関する実践的な洞察と推奨を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。