[논문 리뷰] The Sound of Healthcare: Improving Medical Transcription ASR Accuracy with Large Language Models
논문은 대형 언어 모델(LLM)을 사용해 의료 전사에 대한 ASR 전사를 후처리하여 WER, MC-WER, 다이어리제이션을 개선하는 것을 PriMock57 데이터셋에서 제로샷 및 체인-오브-사고 프롬프트를 통해 연구한다.
In the rapidly evolving landscape of medical documentation, transcribing clinical dialogues accurately is increasingly paramount. This study explores the potential of Large Language Models (LLMs) to enhance the accuracy of Automatic Speech Recognition (ASR) systems in medical transcription. Utilizing the PriMock57 dataset, which encompasses a diverse range of primary care consultations, we apply advanced LLMs to refine ASR-generated transcripts. Our research is multifaceted, focusing on improvements in general Word Error Rate (WER), Medical Concept WER (MC-WER) for the accurate transcription of essential medical terms, and speaker diarization accuracy. Additionally, we assess the role of LLM post-processing in improving semantic textual similarity, thereby preserving the contextual integrity of clinical dialogues. Through a series of experiments, we compare the efficacy of zero-shot and Chain-of-Thought (CoT) prompting techniques in enhancing diarization and correction accuracy. Our findings demonstrate that LLMs, particularly through CoT prompting, not only improve the diarization accuracy of existing ASR systems but also achieve state-of-the-art performance in this domain. This improvement extends to more accurately capturing medical concepts and enhancing the overall semantic coherence of the transcribed dialogues. These findings illustrate the dual role of LLMs in augmenting ASR outputs and independently excelling in transcription tasks, holding significant promise for transforming medical ASR systems and leading to more accurate and reliable patient records in healthcare settings.
연구 동기 및 목표
- LLM이 의료 전사를 위한 ASR 출력의 기본 ASR 성능을 넘어 개선할 수 있는지 평가한다.
- LLM 후처리 후 일반 WER, Medical Concept WER (MC-WER), 및 화자 다이어리제이션 정확도를 평가한다.
- 다이어리제이션 및 교정을 위한 제로샷 프롬프트와 체인-오브-사고 프롬프트를 비교한다.
- 다이어리제이션 및 교정 성능에 대한 문장부호 품질의 영향을 분석한다.
- 의료 전사 작업에서 LLM이 최첨단 성과를 달성할 수 있는지 입증한다.
제안 방법
- 그라운드 트루스 전사 및 다이어리제이션이 있는 PriMock57 데이터셋(57개의 모의 상담, 약 9시간)을 사용한다.
- 기준치로 여섯 가지 ASR 시스템(GCMC, Chirp, Whisper 1, Amazon Transcribe Medical, Soniox, Deepgram Nova 2)을 평가한다.
- ASR 출력의 후처리에 여러 LLM(Gemini Pro/Ultra, Text Bison 32k, Claude V2, GPT-4, PaLM Gecko/2, Ada embeddings, LLaMA 2)을 적용한다.
- 제로샷 템플릿으로 LLM에 프롬프트를 제공하여 서로 다른 길이 구간(5줄, 10줄, 또는 전체 전사)의 다이어리제이션 및 교정을 수행한다.
- 체인-오브-사고 프롬프트를 구현하여 구두점, 다이어리제이션 및 교정 단계로 분해하고, few-shot 합리화를 포함한다.
- 출력 형식을 다루고 텍스트 악화를 완화하기 위해 정규식 파싱과 Smith-Waterman 정렬을 적용하고, 표준화된 전처리로 WER/MC-WER를 계산한다.

실험 결과
연구 질문
- RQ1후처리를 통해 의료 ASR 출력의 Word Error Rate(WER)을 개선할 수 있는가?
- RQ2LLM이 의학 용어를 더 잘 인식하고 표준화함으로써 Medical Concept WER(MC-WER)를 개선하는가?
- RQ3LLM이 ASR 출력을 후처리할 때 다이어리제이션 정확도는 어떤가? 체인-오브-사고 프롬프트가 제로샷 프롬프트보다 우수한가?
- RQ4문장부호 품질이 다이어리제이션 및 교정 성능에 미치는 영향은 무엇인가?
- RQ5입력 창 크기가 다른 경우 의사 대 환자 다이어리제이션에서 LLM 후처리 접근법이 최첨단 성과를 달성할 수 있는가?
주요 결과
- 체인-오브-사고 프롬프트를 통한 LLM 후처리는 여러 조합에서 기준 ASR에 비해 다이어리제이션 성능이 우수하며, 특히 Doctor-Specific Diarizaton(D-WER) 개선이 두드러진다.
- 일부 LLM/ASR 조합(GPT-4 또는 Gemini Pro/Ultra와 Whisper 1 등)은 10줄 청크 실험에서 모든-ASR 벤치마크보다 낮은 D-WER를 달성한다.
- 환자별 다이어리제이션에서 LLM은 경쟁력이 있으며 일부 ASR 벤치마크를 능가할 수 있으며, 특히 전체 전사 처리가 가능한 경우 일부 LLM/ASR 조합이 기본값을 능가한다.
- Whisper 1은 평가된 시스템 중 일반적으로 가장 낮은 MC-WER를 보이며, 이를 LLM(GPT-4, Gemini Ultra) 등과 조합하면 의학 개념 오류를 더욱 줄인다.
- 문장부호 품질은 다이어리제이션에 강하게 영향을 주며, 일부 ASR 모델의 적대적 문장부호는 CoT 워크플로우의 초기 문장부호 향상 단계로 완화될 수 있다.
- 연구는 이중 이점을 보여준다: LLM은 ASR 출력의 후처리와 전사 작업 모두에서 뛰어날 수 있으며, 개선된 의료 기록에 대한 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.