QUICK REVIEW

[論文レビュー] A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with Large Language Models

Stefan Hegselmann, Shannon Zejiang Shen|arXiv (Cornell University)|Feb 23, 2024

Topic Modeling被引用数 6

ひとこと要約

本論文は、データ中心の訓練とプロンプティング戦略（幻覚ラベリングとクレンジングを含む）が、LLM が生成する患者サマリーの信頼性と品質にどのように影響するかを検討し、特にゼロショット設定で、GPT-4 はしばしば高品質の結果を低い幻覚で提供することを示している。

ABSTRACT

Patients often face difficulties in understanding their hospitalizations, while healthcare workers have limited resources to provide explanations. In this work, we investigate the potential of large language models to generate patient summaries based on doctors' notes and study the effect of training data on the faithfulness and quality of the generated summaries. To this end, we release (i) a rigorous labeling protocol for errors in medical texts and (ii) a publicly available dataset of annotated hallucinations in 100 doctor-written and 100 generated summaries. We show that fine-tuning on hallucination-free data effectively reduces hallucinations from 2.60 to 1.55 per summary for Llama 2, while preserving relevant information. We observe a similar effect on GPT-4 (0.70 to 0.40), when the few-shot examples are hallucination-free. We also conduct a qualitative evaluation using hallucination-free and improved training data. We find that common quantitative metrics do not correlate well with faithfulness and quality. Finally, we test GPT-4 for automatic hallucination detection, which clearly outperforms common baselines.

研究の動機と目的

病院ノートから一般の人向けの患者サマリーを作成する動機づけ。患者理解を向上させ、誤解を減らすため。
要約の品質と忠実度が訓練データの品質、特に幻覚に関する点にどのように影響されるかを調査する。
実データおよびモデル生成サマリーに対して、厳密な幻覚ラベリングプロトコルを開発・適用する。
複数のモデルにわたるデータ中心の介入（クリーンデータ vs 元データ）を評価し、幻覚発生率とサマリー品質への影響を定量化する。

提案手法

退院指示とBrief Hospital Courseの文脈を結びつけたMIMIC-IV-Note-DIデータセットを構築する。
2名の医療専門家が実データ100件と生成データ100件のサマリーをラベリングする、詳細な幻覚注釈プロトコルを開発・適用する。
LoRAを用いてクリーン化（幻覚なし）データ上でLlama-2-70Bを微調整し、元データで訓練したLlama-2-70Bと比較する。
GPT-4を0-shotおよび5-shot設定で評価し、文脈とプロンプトへの感度を評価する。
定量指標（ROUGE、BERTScore、SARI）と定性的評価（関連性、一貫性、簡略化、流暢さ、整合性）を実施する。
注釈データに対して自動幻覚検出アプローチ（MedCat/UMLSベース、GPT-4プロンプト）をテストする。

Figure 1: Overview of this study. We created the filtered dataset MIMIC-IV-Note-DI and labeled hallucinations in 100 examples ( original ). We created a version without hallucinations ( cleaned ) and checked if training on this data reduced hallucination for Llama 70B and GPT-4. We also created a ve

実験結果

リサーチクエスチョン

RQ1幻覚なしデータでの訓練が、LLMが生成する患者サマリーの幻覚発生率にどう影響するか？
RQ2データ中心の幻覚削減は、LLM全体で要約の事実内容と品質を維持・向上させるか？
RQ3ゼロショット対ファFew-shot prompting戦略（特にGPT-4）では、忠実な患者サマリーの生成にどのような違いがあるか？
RQ4臨床要約における自動幻覚検出アプローチの限界は何か？

主な発見

モデル（訓練データ）	R-1	R-2	R-3	R-4	R-L	BERT	DeBERT	SARI	Words
LED-large (all MIMIC ex.)	43.82	17.33	8.85	4.92	29.89	88.11	64.12	46.71	76.99
Llama 2 7B (100 MIMIC ex.)	38.36	12.66	5.13	2.24	24.73	85.68	60.23	44.12	73.13
Llama 2 70B (100 MIMIC ex.)	40.58	14.31	6.09	2.74	26.19	86.30	61.89	45.16	76.90
GPT-4 5-shot (5 MIMIC ex.)	38.80	10.78	3.55	1.12	21.98	86.67	61.30	42.88	131.86
GPT-4 0-shot (none)	38.26	10.81	3.70	1.49	21.49	86.37	60.75	42.04	165.78

幻覚なしデータでLlama-70Bをファインチューニングすると、1つのサマリーあたりの幻覚が2.60から1.55に減少し、主要事実を保持する。
GPT-4は5つのインコンテキスト例で、幻覚を0.70から0.40に減少させ（元データ vs クリーンデータ）、事実内容の損失は最小限。
GPT-4は定性的および一貫性の指標で一般的にLlama-2を上回り、特定のプロンプト下で人間作成サマリーの品質に近づくか、超えることがある。
定量的指標（ROUGE、BERTScore、SARI）は、この領域では信頼性や定性的品質と一貫して相関しない。
医療エンティティベースの自動幻覚検出は、クラス認識に対する検出ではGPT-4プロンプトと比較して性能が低かった。
データ公開にはMIMIC-IV-Note-DIおよび幻覚注釈データセットが含まれ、コードは公開されている。

Figure 2: A synthetic MIMIC example labeled with the developed annotation protocol for hallucinations. The protocol was adapted from Thomson and Reiter ( 2020 ) and we used eleven different labels.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。