[論文レビュー] The Sound of Healthcare: Improving Medical Transcription ASR Accuracy with Large Language Models
本論文は、大規模言語モデル(LLMs)を用いて医療転写のASRトランスクリプトを後処理し、PriMock57データセットを用いてゼロショットプロンプティングおよびチェーン・オブ・ソートプロンプティングを通じてWER、MC-WER、およびディアライゼーションを改善することを検討する。
In the rapidly evolving landscape of medical documentation, transcribing clinical dialogues accurately is increasingly paramount. This study explores the potential of Large Language Models (LLMs) to enhance the accuracy of Automatic Speech Recognition (ASR) systems in medical transcription. Utilizing the PriMock57 dataset, which encompasses a diverse range of primary care consultations, we apply advanced LLMs to refine ASR-generated transcripts. Our research is multifaceted, focusing on improvements in general Word Error Rate (WER), Medical Concept WER (MC-WER) for the accurate transcription of essential medical terms, and speaker diarization accuracy. Additionally, we assess the role of LLM post-processing in improving semantic textual similarity, thereby preserving the contextual integrity of clinical dialogues. Through a series of experiments, we compare the efficacy of zero-shot and Chain-of-Thought (CoT) prompting techniques in enhancing diarization and correction accuracy. Our findings demonstrate that LLMs, particularly through CoT prompting, not only improve the diarization accuracy of existing ASR systems but also achieve state-of-the-art performance in this domain. This improvement extends to more accurately capturing medical concepts and enhancing the overall semantic coherence of the transcribed dialogues. These findings illustrate the dual role of LLMs in augmenting ASR outputs and independently excelling in transcription tasks, holding significant promise for transforming medical ASR systems and leading to more accurate and reliable patient records in healthcare settings.
研究の動機と目的
- LLMs が医療転写の基準となるASR性能を超えて出力を改善できるかを評価する。
- LLM後処理後の一般的なWER、Medical Concept WER (MC-WER)、および話者ディアライゼーションの精度を評価する。
- ディアライゼーションと修正のために、ゼロショット prompting とチェーン・オブ・ソート prompting を比較する。
- 句読点の品質がディアライゼーションと修正性能に与える影響を分析する。
- LLMs が医療転写タスクで最先端の結果を達成できるかを示す。
提案手法
- PriMock57データセット(57件のモック診療、約9時間)を ground-truth トランスクリプトとディアライゼーションと共に使用。
- 6つのASRシステム(GCMC、Chirp、Whisper 1、Amazon Transcribe Medical、Soniox、Deepgram Nova 2)をベースラインとして評価。
- 複数のLLM(Gemini Pro/Ultra、Text Bison 32k、Claude V2、GPT-4、PaLM Gecko/2、Ada embeddings、LLaMA 2)を用いてASR出力を後処理。
- ゼロショットテンプレートでLLMをプロンプトし、5、10行、または全トランスクリプトなど、異なるセグメント長の転写をディアライズして修正。
- コーチングド・オブ・ソート(Chain-of-Thought) prompting を実装し、句読点、ディアライゼーション、修正のステップに分解し、few-shotの推論を用いる。
- 出力のフォーマット崩れを処理するために正規表現解析とSmith-Watermanアラインメントを適用し、前処理を標準化してWER/MC-WERを計算。

実験結果
リサーチクエスチョン
- RQ1LLMs が医療ASR出力のWERを後処理を通じて改善できるか。
- RQ2LLMs が医療用語をより正確に認識・正規化することでMC-WERを改善できるか。
- RQ3LLMが後処理したASR出力のディアライゼーション精度はどうなるか、チェーン・オブ・ソート prompting はゼロショット prompting より優れているか。
- RQ4句読点の品質がディアライゼーションと修正性能に与える影響は何か。
- RQ5LLM後処理アプローチは、さまざまな入力ウィンドウサイズで医師 vs. 患者のディアライゼーションにおいて最先端の結果を達成できるか。
主な発見
- チェーン・オブ・ソート prompting を用いた LLM 後処理は、複数の組み合わせでベースラインASRを上回るディアライゼーション性能を示し、特に Doctor-Specific Diarizaton (D-WER) の改善が顕著。
- 特定のLLM/ASRの組み合わせ(例:GPT-4 または Gemini Pro/Ultra と Whisper 1)は、10行チャンク実験で全ASRベンチマークより低い D-WER を達成。
- 患児特有のディアライゼーションでは、LLMsは競争力があり、全一括トランスクリプト処理ではいくつかのLLM/ASRペアがベースラインを上回ることがある。
- Whisper 1 は評価されたシステムの中で一般に最も低いMC-WERを示し、それをLLMs(例:GPT-4、Gemini Ultra)と組み合わせると医療概念エラーをさらに減らせる。
- 句読点の品質はディアライゼーションに強く影響する。いくつかのASRモデルからの敵対的な句読点は、CoTワークフローの初期の句読点強化ステップで軽減可能。
- 本研究は二重の利点を示す:LLMs はASR出力を後処理するだけでなく転写タスクにも秀でる可能性があり、医療記録の改善に有望である。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。