[논문 리뷰] Translating Radiology Reports into Plain Language using ChatGPT and GPT-4 with Prompt Learning: Promising Results, Limitations, and Potential
본 논문은 ChatGPT와 GPT-4를 이용한 프롬프트 학습으로 방사선 보고서를 일반 언어로 번역하는 것을 평가하고, 품질과 유용한 제안이 유망함을 보이나 불일치와 남아 있는 한계를 지적한다.
The large language model called ChatGPT has drawn extensively attention because of its human-like expression and reasoning abilities. In this study, we investigate the feasibility of using ChatGPT in experiments on using ChatGPT to translate radiology reports into plain language for patients and healthcare providers so that they are educated for improved healthcare. Radiology reports from 62 low-dose chest CT lung cancer screening scans and 76 brain MRI metastases screening scans were collected in the first half of February for this study. According to the evaluation by radiologists, ChatGPT can successfully translate radiology reports into plain language with an average score of 4.27 in the five-point system with 0.08 places of information missing and 0.07 places of misinformation. In terms of the suggestions provided by ChatGPT, they are general relevant such as keeping following-up with doctors and closely monitoring any symptoms, and for about 37% of 138 cases in total ChatGPT offers specific suggestions based on findings in the report. ChatGPT also presents some randomness in its responses with occasionally over-simplified or neglected information, which can be mitigated using a more detailed prompt. Furthermore, ChatGPT results are compared with a newly released large model GPT-4, showing that GPT-4 can significantly improve the quality of translated reports. Our results show that it is feasible to utilize large language models in clinical education, and further efforts are needed to address limitations and maximize their potential.
연구 동기 및 목표
- 환자와 제공자를 위한 방사선 보고서를 ChatGPT와 GPT-4를 사용하여 일반 언어로 번역하는 타당성을 평가한다.
- 번역 품질과 생성된 환자/제공자 제안의 유용성을 평가한다.
- 프롬프트 설계가 번역 품질에 미치는 영향과 프롬프트 최적화 및 앙상블 방법의 역할을 조사한다.
제안 방법
- 임상 데이터베이스에서 흉부 CT 폐암 검진 보고서 62건과 두부 MRI 검진 보고서 76건을 수집했다.
- ChatGPT에 세 가지 프롬프트를 적용했다: 일반 언어로의 번역, 환자 제안, 그리고 제공자 제안.
- 완전성, 정확성, 및 전반적 품질에 대한 방사선전문의 평가와 ChatGPT 번역을 비교했다.
- 같은 프롬프트와 평가 프레임워크를 사용해 ChatGPT와 GPT-4를 비교했다.
- 프롬프트 최적화, 프롬프트 엔지니어링의 변화 및 앙상블 번역을 탐색해 품질에 미치는 영향을 평가했다.
실험 결과
연구 질문
- RQ1ChatGPT와 GPT-4가 방사선 보고서를 정확하고 환자 친화적인 일반 언어로 번역할 수 있는가?
- RQ2누락되거나 잘못 해석된 정보를 기준으로 방사선전문가가 평가한 ChatGPT 및 GPT-4 번역 보고서의 품질은 어느 정도인가?
- RQ3프롬프트와 프롬프트 최적화가 번역 품질과 생성 제안의 유용성을 실제로 향상시키는가?
- RQ4앙상블 방법을 포함한 다양한 프롬프트 전략은 번역 성능에서 어떻게 비교되는가?
- RQ5임상 배치에 대한 한계 및 잠재적 안전 고려사항은 무엇인가?
주요 결과
- ChatGPT 번역은 보고된 보고서에 대해 방사선전문의가 평가한 평균 점수 4.268(5점 만점)을 획득했다.
- 흉부 CT당 평균 누락 정보는 0.080점, 뇌 MRI당 0.066점; 번역당 평균 잘못된 정보는 0.065점이었다.
- 전반적으로 흉부 CT 번역의 76%가 5점을 받았고 뇌 MRI 번역의 32%가 5점을 달성했다(보고된 범위 내).
- GPT-4 번역은 원래 프롬프트와 최적화된 프롬프트 모두에서 ChatGPT를 크게 능가했으며, 일부 조건에서 거의 완벽에 가까운 결과에 근접했다(예: 최적화된 프롬프트에서 96.8%가 좋음).
- 최적화된 프롬프트는 모호한 프롬프트에 비해 완전성을 크게 향상시키고 누락 및 오해를 감소시켰다(예: 좋은 번역이 55.2%에서 77.2%로 상승).
- 약 37%의 사례에서 환자나 제공자를 위한 구체적이고 보고서 기반의 제안이 제시되었으며; 대부분의 제안은 일반적이고 관련성이 높았다(예: 의사와의 추적 관찰, 소견 소통).
- 프롬프트 엔지니어링 및 앙상블 방법은 많은 시나리오에서 최적화된 프롬프트에 비해 제한적이고 통계적으로 유의미한 이점을 제공하지 못했으며, 앙상블은 때때로 과도한 단순화나 경미한 누락을 초래했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.