QUICK REVIEW

[論文レビュー] MedHalu: Hallucinations in Responses to Healthcare Queries by Large Language Models

Vibhor Agarwal, Yiqiao Jin|arXiv (Cornell University)|Sep 29, 2024

Machine Learning in Healthcare被引用数 8

ひとこと要約

MedHaluは、現実の医療関連クエリに対するLLMの応答を研究するための医療ハルシネーションデータセットと検出フレームワークを初の試みとして提供し、医療ハルシネーションを検出する点で専門家が一般人とLLMを上回ることを示し、エキスパート・イン・ザ・ループのプロンプトがLLM検出性能を向上させることを実証します。

ABSTRACT

Large language models (LLMs) are starting to complement traditional information seeking mechanisms such as web search. LLM-powered chatbots like ChatGPT are gaining prominence among the general public. AI chatbots are also increasingly producing content on social media platforms. However, LLMs are also prone to hallucinations, generating plausible yet factually incorrect or fabricated information. This becomes a critical problem when laypeople start seeking information about sensitive issues such as healthcare. Existing works in LLM hallucinations in the medical domain mainly focus on testing the medical knowledge of LLMs through standardized medical exam questions which are often well-defined and clear-cut with definitive answers. However, these approaches may not fully capture how these LLMs perform during real-world interactions with patients. This work conducts a pioneering study on hallucinations in LLM-generated responses to real-world healthcare queries from patients.We introduce MedHalu, a novel medical hallucination benchmark featuring diverse health-related topics and hallucinated responses from LLMs, with detailed annotation of the hallucination types and text spans. We also propose MedHaluDetect, a comprehensive framework for evaluating LLMs' abilities to detect hallucinations. Furthermore, we study the vulnerability to medical hallucinations among three groups -- medical experts, LLMs, and laypeople. Notably, LLMs significantly underperform human experts and, in some cases, even laypeople in detecting medical hallucinations. To improve hallucination detection, we propose an expert-in-the-loop approach that integrates expert reasoning into LLM inputs, significantly improving hallucination detection for all LLMs, including a 6.3% macro-F1 improvement for GPT-4. Our code and dataset are available at https://netsys.surrey.ac.uk/datasets/medhalu/.

研究の動機と目的

実世界の医療クエリに対するLLMの回答におけるハルシネーションを研究する。
diverse topics and text spans.

提案手法

Healthcare QAの入力対立ハルシネーション、文脈対立ハルシネーション、事実対立ハルシネーションを定義する。
Real-world queries from HealthQA、LiveQA、MedicationQA から構成され、GPT-3.5 によってハルシネーションを含む回答を生成する。
専門家の検証（Cohen’s Kappa ~0.73）を用いてハルシネーションタイプとスパンをラベル付けする。
MedHaluDetect を開発して、LLM、専門家、一般人の間でのハルシネーション検出を評価する。
検出性能を、正確さ、macro-P、macro-R、macro-F1、および検出されたスパンと専門家のスパンとの編集距離で評価する。
専門家の推論をLLMプロンプトに組み込んで、専門家を巻き込んだプロンプトの効果を調査する。

実験結果

リサーチクエスチョン

RQ1実世界の医療クエリに対する検出において、LLM、専門家、一般人は医療ハルシネーションをどのように検出するか？
RQ2検証者とモデル間で、どのハルシネーションタイプが最も検出が容易か、最も難しいか？
RQ3専門家の推論は、LLMベースのハルシネーション検出を改善できるか？
RQ4専門家を巻き込んだプロンプトが、モデル間で検出性能に与える比較的影響はどの程度か？
RQ5MedHaluデータセットは医療ハルシネーションのベンチマークとしてどれほど信頼できるか？

主な発見

データセット	評価者	指標	値	ノート
HealthQA	GPT-3.5	Macro-F1	0.56	-
HealthQA	GPT-4	Macro-F1	0.57	-
HealthQA	LLaMA-2	Macro-F1	0.52	-
LiveQA	GPT-3.5	Macro-F1	0.52	-
LiveQA	GPT-4	Macro-F1	0.52	-
LiveQA	LLaMA-2	Macro-F1	0.50	-
MedicationQA	GPT-3.5	Macro-F1	0.55	-
MedicationQA	GPT-4	Macro-F1	0.54	-
MedicationQA	LLaMA-2	Macro-F1	0.52	-

LLMsは医療ハルシネーションの検出で医療専門家に遅れを取り、時には一般人を下回ることがある。
GPT-3.5とGPT-4は検出において一般にLLaMA-2を上回り、GPT-4が最も総合的な性能を示す。
専門家はMacro-F1スコアがLLMsや一般人より高い（HealthQA 0.79、LiveQA 0.57、MedicationQA 0.71）。
LiveQAは、評価者全体で最もハルシネーション検出が難しいサブセットである。
専門家を巻き込んだプロンプトは顕著な向上をもたらし、GPT-4は非専門家プロンプトに比べ平均Macro-F1が6.3ポイント向上。
LLMが検出したスパンと専門家のスパンの平均編集距離は、データセットを通じてGPT-4の方がGPT-3.5より低い（HealthQA: 37.41 vs 38.46; LiveQA: 84.33 vs 107.11; MedicationQA: 47.8 vs 71.7）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。