Skip to main content
QUICK REVIEW

[論文レビュー] ChatGPT Makes Medicine Easy to Swallow: An Exploratory Case Study on Simplified Radiology Reports

Katharina Jeblick, Balthasar Schachtner|arXiv (Cornell University)|Dec 30, 2022
Artificial Intelligence in Healthcare and Education被引用数 105
ひとこと要約

The study assesses radiologists’ quality judgments of ChatGPT-simplified radiology reports, finding they are largely factually correct and complete but show instances of inaccuracies and potentially harmful implications.

ABSTRACT

The release of ChatGPT, a language model capable of generating text that appears human-like and authentic, has gained significant attention beyond the research community. We expect that the convincing performance of ChatGPT incentivizes users to apply it to a variety of downstream tasks, including prompting the model to simplify their own medical reports. To investigate this phenomenon, we conducted an exploratory case study. In a questionnaire, we asked 15 radiologists to assess the quality of radiology reports simplified by ChatGPT. Most radiologists agreed that the simplified reports were factually correct, complete, and not potentially harmful to the patient. Nevertheless, instances of incorrect statements, missed key medical findings, and potentially harmful passages were reported. While further studies are needed, the initial insights of this study indicate a great potential in using large language models like ChatGPT to improve patient-centered care in radiology and other medical domains.

研究の動機と目的

  • ChatGPT-simplified radiology reports が事実に基づいて正確で、完全で、患者にとって安全かを評価する。
  • 自動単純化から生じる一般的なエラータイプと潜在的な害を調査する。
  • LLMs を用いた患者中心の放射線診断コミュニケーションの機会と課題について初期見識を提供する。

提案手法

  • 経験豊富な放射線科医が作成した3つの架空の放射線報告書を用いた探索的ケーススタディを設計する。
  • 各オリジナル報告書について15の固有の簡略版を作成するようにChatGPTに促し、合計45件の出力とする。
  • 15名の放射線科医に簡略化版の報告書を事実上の正確さ、完全性、潜在的な危害の観点で構造化質問票を用いて評価させる。
  • 評価を記述統計(中央値、分位数、IQR、最小/最大、平均、SD)で分析し、回答の帰納的自由回答分類を実施する。

実験結果

リサーチクエスチョン

  • RQ1ChatGPT生成の簡略化放射線報告の品質について、放射線科医はどう評価するか。
  • RQ2簡略化版報告は事実上正確で完全であり、患者に潜在的な害を及ぼす可能性はあるか。
  • RQ3ChatGPT生成の簡略化における一般的なエラータイプや省略箇所は何か。
  • RQ43つのオリジナル報告タイプ( Knee MRI, Head MRI, Oncol. CT )間で評価はどのように異なるか。

主な発見

質問中央値第1四分位第3四分位IQR最小最大平均標準偏差
事実上の正確性2220142.20.9
Complete性2121141.80.7
潜在的な危害4341253.51.0
  • 放射線科医は、簡略化報告が事実上正確で完全であると概ね同意した(中央値は両方とも2)。
  • 潜在的な害の評価はよりばらつきが大きく(中央値4)で、中立および同意の回答が見られた。
  • 自由回答の分析では、医療用語の解釈誤り、曖昧な表現、幻覚、いくつかの簡略化報告における重要な所見の欠落といった誤りが明らかになった。
  • 誤解には鑑別診断を最終診断として提示すること、甲状腺甲状腺腺腺の誤伝などが含まれていた。
  • 簡略化された Knee MRI 報告の語数は、原報告よりも長くなる傾向があった(中央値414対222)。
  • 報告全体で、誤った箇所を指摘した参加者は51%、欠落情報は22%、潜在的に有害な結論は36%であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。