QUICK REVIEW

[論文レビュー] Large Language Models for Disease Diagnosis: A Scoping Review

Shuang Zhou, Zidu Xu|arXiv (Cornell University)|Aug 27, 2024

Topic Modeling被引用数 6

ひとこと要約

これは、大規模言語モデルが疾病診断にどのように用いられるかを網羅的に整理したスコーピングレビューであり、疾病、データモダリティ、技術、評価、および今後の方向性を扱う。

ABSTRACT

Automatic disease diagnosis has become increasingly valuable in clinical practice. The advent of large language models (LLMs) has catalyzed a paradigm shift in artificial intelligence, with growing evidence supporting the efficacy of LLMs in diagnostic tasks. Despite the increasing attention in this field, a holistic view is still lacking. Many critical aspects remain unclear, such as the diseases and clinical data to which LLMs have been applied, the LLM techniques employed, and the evaluation methods used. In this article, we perform a comprehensive review of LLM-based methods for disease diagnosis. Our review examines the existing literature across various dimensions, including disease types and associated clinical specialties, clinical data, LLM techniques, and evaluation methods. Additionally, we offer recommendations for applying and evaluating LLMs for diagnostic tasks. Furthermore, we assess the limitations of current research and discuss future directions. To our knowledge, this is the first comprehensive review for LLM-based disease diagnosis.

研究の動機と目的

診断においてLLMsが適用される疾病および臨床分野を調査する
LLMベースの診断タスクで使用される臨床データモダリティを整理する
診断に用いられるLLM技術とプロンプトを要約する（RAGおよび事前学習を含む）
診断性能を評価するために使用される評価手法と指標をレビューする
LLMベースの疾病診断のための推奨事項、制約、および将来の方向性を示す

提案手法

研究を選択するためのPRISMAフローチャートを用いたスコーピングレビューを実施した
LLM技術をプロンプトベース、取得強化生成（RAG）、事前学習/ファインチューニングのアプローチに分類した
研究横断でデータモダリティと臨床データのタイプを分析した。テキスト、画像、時系列、音声、マルチモーダルデータを含む
自動指標、ヒトによる評価、LLM評価を含む評価戦略を検討した
データ準備ガイドラインと技術選択の推奨を提供するために知見を統合した
臨床応用における制限と今後の方向性について議論した

実験結果

リサーチクエスチョン

RQ1LLMベースの診断タスクでどの疾病と臨床データが調査されているか？
RQ2疾病診断に適用されるLLM技術は何か、どのように選択すべきか？
RQ3診断性能を評価するのに適切な評価方法は何か？
RQ4LLMベースの疾病診断の制限と今後の方向性は何か？

主な発見

ほとんどの研究はプロンプトベース学習を用い、ゼロショット promptingが最も普及している（N=194）
多くの研究は単一モーダルのテキストデータ、特に臨床ノートや医療報告に焦点を当てた
視覚-言語モデル（VLMs）とプロンプト設計を用いたマルチモーダル研究が増加し、画像-テキストデータ入力と診断の正当化を可能にしている（例：GPT-4V, LLaVA）
取得強化LLMs（RAG）は外部知識ベース（コーパス、データベース、ナレッジグラフ）を活用して精度を高め、幻覚を減らす
ファインチューニング戦略には監視付きファインチューニング（SFT）と人間のフィードバックによる強化学習（RLHF）が含まれる；パラメータ効率のファインチューニング（LoRA）が一般的に用いられる（N=7）
事前学習とファインチューニングには大規模で多様な医療データセットと substantial resourcesが必要で、プロンプトベースの方法はコスト効果の高い代替手段を提供する
評価戦略は自動指標、ヒトによる評価、LLMベース評価に分かれ、それぞれ真実ラベルの必要性、コスト、信頼性にトレードオフがある
本レビューはデータ統合の課題、不完全な情報の問題、臨床実践におけるマルチモーダルデータ融合と反復的データ収集の必要性を強調する

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。