QUICK REVIEW

[論文レビュー] Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions

Hanjie Chen, Zhouxiang Fang|ArXiv.org|Feb 28, 2024

Topic Modeling被引用数 8

ひとこと要約

本論文は専門家の解説付きの実世界医療QAデータセットを2つ（JAMA Clinical ChallengeとMedbullets）を紹介し、複数の prompting 戦略を用いて4つのLLMを評価している。タスクは難しく、解説を自動で評価することが難しいという結果を示す。

ABSTRACT

LLMs have demonstrated impressive performance in answering medical questions, such as achieving passing scores on medical licensing examinations. However, medical board exams or general clinical questions do not capture the complexity of realistic clinical cases. Moreover, the lack of reference explanations means we cannot easily evaluate the reasoning of model decisions, a crucial component of supporting doctors in making complex medical decisions. To address these challenges, we construct two new datasets: JAMA Clinical Challenge and Medbullets. Datasets and code are available at https://github.com/HanjieChen/ChallengeClinicalQA. JAMA Clinical Challenge consists of questions based on challenging clinical cases, while Medbullets comprises simulated clinical questions. Both datasets are structured as multiple-choice question-answering tasks, accompanied by expert-written explanations. We evaluate seven LLMs on the two datasets using various prompts. Experiments demonstrate that our datasets are harder than previous benchmarks. In-depth automatic and human evaluations of model-generated explanations provide insights into the promise and deficiency of LLMs for explainable medical QA.

研究の動機と目的

現場の医療QAベンチマークが教科書的知識を超える推論を必要とする必要性を動機づける。
2つのデータセット（JAMA Clinical ChallengeとMedbullets）を専門家が作成した解説とともに紹介する。
これらのデータセット上で4つのLLM（GPT-3.5, GPT-4, PaLM 2, Llama 2）を複数の prompting 戦略で評価する。
予測の正確性とモデル生成解説の品質の両方を評価し、説明可能な医療QA研究を導く。

提案手法

新規データセットを構築する。JAMA Clinical Challengeは実世界の1524件のケース、MedbulletsはUSMLE Step 2/3スタイル308問で、それぞれ専門家の解説を付与。
四つのLLM（GPT-3.5, GPT-4, PaLM 2, Llama 2）を両データセットでゼロショット、 Few-shot、Chain-of-Thought promptingで評価。
三つの prompting 戦略を適用：X→Y、X→RY（CoT）、XY*→R（解説のみプロンプト）。
予測には正確性を主指標として用い、解説評価にはROUGE-L、BERTScore、BARTScore系の自動指標と人間評価を併用。
新しいタスクへの適応を評価するため、leave-one-outクロスバリデーションを用いたfew-shot promptingとインカ-context学習を探る。

実験結果

リサーチクエスチョン

RQ1提案データセットは既存の医療QAベンチマークよりLLMにとってより難しいのか。
RQ2現実的な医療ケースに対する予測精度と解説品質に、異なる prompting 戦略がどのように影響するのか。
RQ3医療QA文脈における解説の自動指標は人間の判断と整合するのか。
RQ4複雑な臨床決定を説明する際、現在のLLMにはどのような限界があり、今後の改善が必要な点はどこか。

主な発見

GPT-4は全体として最も高い予測精度を示すが、MedQAと比較して新規データセットでは依然として顕著な低下を示す。
インカ-context学習はGPT-4に対して限界的な利得をもたらすにとどまり、GPT-3.5、PaLM 2、Llama 2ではほとんど利点が見られない。
Chain-of-Thought prompting（X→RY）はMedQAとMedbulletsで一般に精度を向上させるが、JAMA Clinical Challengeでは新たな誤りタイプ（Not any of the aboveや捏造された選択肢など）を導入することがある。
解説を評価する自動指標（ROUGE-L、BERTScore、BARTScore系）は一致せず、人間の判断と良く一致しない（整合性約0.43-0.55）。より良い評価指標の必要性を示唆。
人間評価ではGPT-4が他モデルより解説を好まれる傾向を示す一方、PaLM 2は自動指標の強さにもかかわらず低評価。全体として自動指標は人間の判断と乖離している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。