QUICK REVIEW

[論文レビュー] An Investigation of Evaluation Metrics for Automated Medical Note Generation

Asma Ben Abacha, Wen-wai Yim|arXiv (Cornell University)|May 27, 2023

Topic Modeling被引用数 11

ひとこと要約

本論文は臨床ノート生成の自動評価指標の広範なセットを評価し、タスク特化型およびアンサンブル指標を導入し、複数のデータセットにおける事実性、幻覚、欠落に関する人間の評価との相関を分析する。

ABSTRACT

Recent studies on automatic note generation have shown that doctors can save significant amounts of time when using automatic clinical note generation (Knoll et al., 2022). Summarization models have been used for this task to generate clinical notes as summaries of doctor-patient conversations (Krishna et al., 2021; Cai et al., 2022). However, assessing which model would best serve clinicians in their daily practice is still a challenging task due to the large set of possible correct summaries, and the potential limitations of automatic evaluation metrics. In this paper, we study evaluation methods and metrics for the automatic generation of clinical notes from medical conversations. In particular, we propose new task-specific metrics and we compare them to SOTA evaluation metrics in text summarization and generation, including: (i) knowledge-graph embedding-based metrics, (ii) customized model-based metrics, (iii) domain-adapted/fine-tuned metrics, and (iv) ensemble metrics. To study the correlation between the automatic metrics and manual judgments, we evaluate automatic notes/summaries by comparing the system and reference facts and computing the factual correctness, and the hallucination and omission rates for critical medical facts. This study relied on seven datasets manually annotated by domain experts. Our experiments show that automatic evaluation metrics can have substantially different behaviors on different types of clinical notes datasets. However, the results highlight one stable subset of metrics as the most correlated with human judgments with a relevant aggregation of different evaluation criteria.

研究の動機と目的

医師の文書化負担を軽減するための自動臨床ノート生成の信頼性の高い評価を動機づける。
既存および新規指標が、臨床ノートの事実性、幻覚、欠落に関する専門家の判断とどの程度相関するかを評価する。
医療テキストに特化した4つの指標ファミリーを提案する：知識グラフ埋め込み、微調整モデルベースの指標、領域適応指標、アンサンブル指標。
再現性と今後の研究を支援するために、コードとマニュアル注釈を公開する。

提案手法

医療テキストに特化した4つの指標ファミリーを提案する：（i）知識グラフ埋め込みベース（MIST）；（ii）微調整ベース（ClinicalBLEURT）；（iii）カスタマイズされたモデルベース（MedBARTScore、MedBERTScoreの派生）；（iv）複数の信号を組み合わせたアンサンブル指標。
6,367件の臨床遭遇データでBLEURTをファインチューニングしてClinicalBLEURTを作成し、セクションレベルデータ（HPI, EXAM, RESULTS, ASSESSMENT）でモデルベース指標をファインチューニングする。
医療領域に合わせて既存指標を調整し医療用語に重みづけ（MedBARTScore, MedBERTScore）し、長文ノートにはスライディングウィンドウ変種（MedBERTScore-SP）を用いて対処する。
医療概念をUMLSへリンクする知識表現を構築（scispaCy/MedCAT経由）し、参照ノートとシステムノート間で概念グラフのコサイン類似度としてMISTを計算する。
正規化して選択された指標を平均化することで、補完的な信号を活用するアンサンブル定式化（MIST-Comb1, MIST-Comb2）を開発する。
複数データセットにわたり21の指標を人間の注釈（事実性、幻覚、欠落）と照らして評価する。

実験結果

リサーチクエスチョン

RQ1自動臨床ノート生成において、どの自動評価指標が事実性、幻覚、欠落に関する人間判断を最もよく追跡するのか？
RQ2タスク特化型指標は臨床ノートデータセットで一般的なオープンドメイン指標より優れているのか？
RQ3多様な指標のアンサンブルはデータセットを横断して人間判断との相関をより安定させられるのか？
RQ4ノートの長さやセクション内容が異なる場合、知識グラフベース、微調整、ドメイン適応、アンサンブル指標はどのように比較されるのか？

主な発見

自動参照	事実性 P	事実性 R	事実性 F1	幻覚	欠落	総合スコア
ROUGE-1-P	0.63	0.32	0.50	-0.73	-0.46	0.55
ROUGE-1-R	0.59	0.80	0.79	-0.39	-0.84	0.70
ROUGE-1-F	0.70	0.70	0.78	-0.55	-0.79	0.73
ROUGE-2-P	0.56	0.33	0.45	-0.60	-0.43	0.48

自動評価指標は臨床ノートデータセットごとに大きく異なる挙動を示す。
複数の評価基準を統合したときに人間判断と最も相関する安定した指標のサブセットが存在する。
MIST-Comb1およびMIST-Comb2のようなアンサンブル指標は、事実性と欠落に対してしばしば強い相関を達成する。
新しい領域特化指標（MedBARTScore、MedBERTScoreの派生、ClinicalBLEURT）は、特に幻覚とセクション特異的評価で競争力のある相関を提供する。
ROUGEベースの指標は特定データセット（特に Consult-Facts/MEDIQA-RRS）で依然として強い相関を示すが、言語モデルベースの指標やアンサンブルはバイアスの少ない参照に対してROUGEを上回ることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。