[論文レビュー] ChatCAD: Interactive Computer-Aided Diagnosis on Medical Image using Large Language Models
ChatCAD は大規模言語モデルと医用画像 CAD ネットワークを統合し、視覚出力をテキストへ翻訳して、放射線診断レポートの要約を LLM 主導で行い、対話的な説明や治療ガイダンスを可能にする。
Large language models (LLMs) have recently demonstrated their potential in clinical applications, providing valuable medical knowledge and advice. For example, a large dialog LLM like ChatGPT has successfully passed part of the US medical licensing exam. However, LLMs currently have difficulty processing images, making it challenging to interpret information from medical images, which are rich in information that supports clinical decisions. On the other hand, computer-aided diagnosis (CAD) networks for medical images have seen significant success in the medical field by using advanced deep-learning algorithms to support clinical decision-making. This paper presents a method for integrating LLMs into medical-image CAD networks. The proposed framework uses LLMs to enhance the output of multiple CAD networks, such as diagnosis networks, lesion segmentation networks, and report generation networks, by summarizing and reorganizing the information presented in natural language text format. The goal is to merge the strengths of LLMs' medical domain knowledge and logical reasoning with the vision understanding capability of existing medical-image CAD models to create a more user-friendly and understandable system for patients compared to conventional CAD systems. In the future, LLM's medical knowledge can be also used to improve the performance of vision-based medical-image CAD models.
研究の動機と目的
- 放射線診断レポートのために医療知識と推論を活用するため、LLMs と視覚ベースの CAD システムを組み合わせる動機づけ。
- CAD 出力をテキストへ翻訳して、視覚と言語を結び付け、LLM の推論を支援する。
- レポートの品質を向上させ、患者への対話的な説明と医療アドバイスを提供する。
- 胸部X線データセットにおける最先端のレポート生成手法と比較して改善を示す。
提案手法
- 胸部X線画像を複数の CAD ネットワーク(分類、病変分割、レポート生成)で処理する。
- CAD 出力(テンソル/マスク)を自然言語の説明に変換してプロンプトを形成する。
- LLM(GPT-3/ChatGPT)を用いてネットワーク間結果を要約し、洗練された放射線診断レポートを生成する。
- スコアを臨床語を用いた重症度説明に変換するプロンプトを設計する。
- MIMIC-CXR の CheXpert ラベルを用いて、基準法と比較して精度、再現率、F1でレポート品質を評価する。

実験結果
リサーチクエスチョン
- RQ1複数の CAD ネットワークからの構造化出力を入力として、LLMs は放射線診断レポートの品質を改善できるか?
- RQ2プロンプト設計が LLM 主導のレポート品質と診断精度にどう影響するか?
- RQ3異なるサイズの LLM(および ChatGPT)の使用が診断性能指標に与える影響は何か?
- RQ4画像所見に基づく対話型の LLM ベースの対話は、有用な説明と治療ガイダンスを提供できるか?
主な発見
- ChatCAD は、胸部X線観察の5項目に対して、2つの最先端レポート生成ベースラインと比較して診断性能指標(F1)を改善する。
- GPT-3 ベースのプロンプティングは、CvT2DistilGPT2 および R2GenCMN よりも5観察全体で平均 F1 と再現率が高く、Edema と Consolidation で顕著な向上を示す。
- ChatGPT は平均 F1 = 0.605 を達成し、text-davinci-003 (0.591) および小型モデル(例: smaller GPT-3 サイズの平均 0.471–0.508)を上回る。
- より大きな LLM は平均的により長く、より高度なレポートを提供し、診断性能も向上することを示しており、医療推論タスクにおけるモデルサイズの役割を強調している。
- ChatCAD は対話的な説明と医療アドバイス風の対話を可能にし、相談コストを削減しオンライン医療体験を改善する可能性がある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。