[論文レビュー] Evaluating the Feasibility and Accuracy of Large Language Models for Medical History-Taking in Obstetrics and Gynecology
この研究は自動不妊歴の取得におけるChatGPT-4oとChatGPT-4o-miniを評価し、4o-miniが抽出完結性において優れ、他の指標には控えめな差があることを示している。
Effective physician-patient communications in pre-diagnostic environments, and most specifically in complex and sensitive medical areas such as infertility, are critical but consume a lot of time and, therefore, cause clinic workflows to become inefficient. Recent advancements in Large Language Models (LLMs) offer a potential solution for automating conversational medical history-taking and improving diagnostic accuracy. This study evaluates the feasibility and performance of LLMs in those tasks for infertility cases. An AI-driven conversational system was developed to simulate physician-patient interactions with ChatGPT-4o and ChatGPT-4o-mini. A total of 70 real-world infertility cases were processed, generating 420 diagnostic histories. Model performance was assessed using F1 score, Differential Diagnosis (DDs) Accuracy, and Accuracy of Infertility Type Judgment (ITJ). ChatGPT-4o-mini outperformed ChatGPT-4o in information extraction accuracy (F1 score: 0.9258 vs. 0.9029, p = 0.045, d = 0.244) and demonstrated higher completeness in medical history-taking (97.58% vs. 77.11%), suggesting that ChatGPT-4o-mini is more effective in extracting detailed patient information, which is critical for improving diagnostic accuracy. In contrast, ChatGPT-4o performed slightly better in differential diagnosis accuracy (2.0524 vs. 2.0048, p > 0.05). ITJ accuracy was higher in ChatGPT-4o-mini (0.6476 vs. 0.5905) but with lower consistency (Cronbach's $α$ = 0.562), suggesting variability in classification reliability. Both models demonstrated strong feasibility in automating infertility history-taking, with ChatGPT-4o-mini excelling in completeness and extraction accuracy. In future studies, expert validation for accuracy and dependability in a clinical setting, AI model fine-tuning, and larger datasets with a mix of cases of infertility have to be prioritized.
研究の動機と目的
- 産科・婦人科における不妊医療履歴の自動化の実現可能性をLLMで評価する。
- ChatGPT-4oとChatGPT-4o-miniの情報抽出と診断支援性能を比較する。
- 履歴取得の完結性と鑑別診断の信頼性、不妊タイプ判断の正確性を評価する。
提案手法
- 医師-患者対話を模擬するAI主導の対話システムを開発する。
- 現実の不妊ケース70件を処理して420件の診断履歴を生成する。
- 情報抽出のF1スコア、鑑別診断(DDs)の正確さ、不妊タイプ判断(ITJ)の正確さを用いて性能を評価する。
- 抽出・完結性・診断指標の観点からChatGPT-4oとChatGPT-4o-miniを比較する。
実験結果
リサーチクエスチョン
- RQ1LLMベースのシステムは自動的に正確かつ完璧な不妊医療履歴を生成できるか。
- RQ2不妊ケースにおける情報抽出、DDsの正確さ、ITJの正確さにおいてChatGPT-4oとChatGPT-4o-miniはどう比較されるか。
主な発見
- ChatGPT-4o-miniは情報抽出精度が高く(F1 0.9258)、ChatGPT-4oは0.9029、p = 0.045、d = 0.244。
- ChatGPT-4o-miniは医療履歴取得の完結性が高く(97.58%)ChatGPT-4o(77.11%)を上回る。
- ChatGPT-4oは鑑別診断の正確さがやや高い(2.0524)一方でChatGPT-4o-miniは2.0048、p > 0.05。
- ITJ正確性はChatGPT-4o-mini(0.6476)のほうがChatGPT-4o(0.5905)より高いが、一貫性は低い(Cronbach’s α = 0.562)。
- 両モデルとも不妊履歴取得の自動化において強い実現可能性を示す;4o-miniは完結性と抽出に優れるが、臨床検証とより大規模データが必要。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。