Skip to main content
QUICK REVIEW

[論文レビュー] ChatRadio-Valuer: A Chat Large Language Model for Generalizable Radiology Report Generation Based on Multi-institution and Multi-system Data

Tianyang Zhong, Wei Zhao|arXiv (Cornell University)|Oct 8, 2023
Artificial Intelligence in Healthcare and Education被引用数 12
ひとこと要約

ChatRadio-Valuer は、multi-institution and multi-system data から 332,673 件の放射線科レポートで Llama2 をファインチューニングし、放射線科レポート生成を一般化し、放射線科レポートからの疾病診断で ChatGPT および GPT-4 を上回る。

ABSTRACT

Radiology report generation, as a key step in medical image analysis, is critical to the quantitative analysis of clinically informed decision-making levels. However, complex and diverse radiology reports with cross-source heterogeneity pose a huge generalizability challenge to the current methods under massive data volume, mainly because the style and normativity of radiology reports are obviously distinctive among institutions, body regions inspected and radiologists. Recently, the advent of large language models (LLM) offers great potential for recognizing signs of health conditions. To resolve the above problem, we collaborate with the Second Xiangya Hospital in China and propose ChatRadio-Valuer based on the LLM, a tailored model for automatic radiology report generation that learns generalizable representations and provides a basis pattern for model adaptation in sophisticated analysts' cases. Specifically, ChatRadio-Valuer is trained based on the radiology reports from a single institution by means of supervised fine-tuning, and then adapted to disease diagnosis tasks for human multi-system evaluation (i.e., chest, abdomen, muscle-skeleton, head, and maxillofacial $\&$ neck) from six different institutions in clinical-level events. The clinical dataset utilized in this study encompasses a remarkable total of extbf{332,673} observations. From the comprehensive results on engineering indicators, clinical efficacy and deployment cost metrics, it can be shown that ChatRadio-Valuer consistently outperforms state-of-the-art models, especially ChatGPT (GPT-3.5-Turbo) and GPT-4 et al., in terms of the diseases diagnosis from radiology reports. ChatRadio-Valuer provides an effective avenue to boost model generalization performance and alleviate the annotation workload of experts to enable the promotion of clinical AI applications in radiology reports.

研究の動機と目的

  • 複数の機関と体部系を横断して一般化可能な、臨床的に実用的な放射線レポート生成ソリューションを開発する。
  • 単一機関のファインチューニングサンプルを使用して、機関横断の適応放射線レポート生成を可能にする。
  • 6機関と5つの体系(body systems)での一般化能力を評価する。
  • 臨床的有用性と導入コストを評価し、実世界の放射線AI導入を促進する。

提案手法

  • 一般化可能な放射線知識を学習するため、大規模な放射線レポートコーパス上で Llama2 をファインチューニングする。
  • 専門家主導のクリーニング、プロンプト合成、複数システム/機関の統合によるデータ前処理を行い、高品質なプロンプトを作成する。
  • Institution 1 のデータをファインチューニングに使用し、その他をテストに使う80/20のトレーニング/評価分割を構築する。
  • 所見を入力して所見を抽出し、LLM から放射線レポートの impression を生成する。
  • エンジニアリング指標と専門家主導の臨床有用性評価を用いて、最先端モデルと比較する。
Figure 3 : The architecture diagram of Llama 2. The model structure of Llama 2 is basically consistent with the standard Transformer Decoder structure, mainly composed of 32 Transformer Blocks
Figure 3 : The architecture diagram of Llama 2. The model structure of Llama 2 is basically consistent with the standard Transformer Decoder structure, mainly composed of 32 Transformer Blocks

実験結果

リサーチクエスチョン

  • RQ1ChatRadio-Valuer は6機関と5つの放射線システムを横断した一般化を達成できるか?
  • RQ2ChatRadio-Valuer は放射線レポート生成とレポートからの疾病診断において、最先端モデル(例:ChatGPT、GPT-4)と比較してどうか?
  • RQ3このアプローチは注釈作業負荷と実用的な臨床有用性にどのような影響を与えるか?
  • RQ4異種の放射線データを横断して堅牢な一般化を可能にするために、データ前処理とプロンプティング戦略で必須なものは何か?

主な発見

  • ChatRadio-Valuer は放射線レポートからの疾病診断で一貫して最先端モデルを上回る。
  • このフレームワークは6機関と5つのシステムでの機関横断および多システム generalization を示す。
  • データ前処理と専門家が作成した prompts はノイズを減らし、堅牢なファインチューニングのためのプロンプト品質を向上させる。
  • このアプローチは臨床有効性評価と導入コストの考慮をサポートし、実世界の放射線AI導入を支援する。
  • モデルはLlama2 アーキテクチャを活用し、コンテキスト長 4096、SwiGLU in FFN、RMSNorm、RoPE、グループ化クエリアテンションを用いて異種の放射線データを扱う。
Figure 4 : Prompt generation overview. The overall framework contains three parts, system description, instruction, and input, which collaboratively constitute a prompt. Within a prompt example (purple), expert instruction and input data on its right are inserted to the { Expert Instruction } and {
Figure 4 : Prompt generation overview. The overall framework contains three parts, system description, instruction, and input, which collaboratively constitute a prompt. Within a prompt example (purple), expert instruction and input data on its right are inserted to the { Expert Instruction } and {

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。