[論文レビュー] MedExQA: Medical Question Answering Benchmark with Multiple Explanations
MedExQA は、5つの過小評価分野に跨る各質問につき2つの説明を持つ医療QAベンチマークを導入し、説明生成に長けた小型 Phi-2 ベースのモデルである MedPhi-2 を提示します。
This paper introduces MedExQA, a novel benchmark in medical question-answering, to evaluate large language models' (LLMs) understanding of medical knowledge through explanations. By constructing datasets across five distinct medical specialties that are underrepresented in current datasets and further incorporating multiple explanations for each question-answer pair, we address a major gap in current medical QA benchmarks which is the absence of comprehensive assessments of LLMs' ability to generate nuanced medical explanations. Our work highlights the importance of explainability in medical LLMs, proposes an effective methodology for evaluating models beyond classification accuracy, and sheds light on one specific domain, speech language pathology, where current LLMs including GPT4 lack good understanding. Our results show generation evaluation with multiple explanations aligns better with human assessment, highlighting an opportunity for a more robust automated comprehension assessment for LLMs. To diversify open-source medical LLMs (currently mostly based on Llama2), this work also proposes a new medical model, MedPhi-2, based on Phi-2 (2.7B). The model outperformed medical LLMs based on Llama2-70B in generating explanations, showing its effectiveness in the resource-constrained medical domain. We will share our benchmark datasets and the trained model.
研究の動機と目的
- 説明可能性に焦点を当てた医療QAベンチマークの不足を解消するため、五つの過小評価分野に渡る各QAペアに2つの説明を導入する。
- オープンソースとクローズドソースのLLMを、回答の正確さと生成された説明の品質の両方で評価する。
- 正確さのみよりも、説明豊富な評価が人間の判断とより良く一致することを示す。
- 医療データで訓練された Phi-2 ベースのモデル(MedPhi-2)でオープンソースの医療LLMを多様化する。
- MedExQAデータセットとモデルへの公開アクセスを提供し、医療LLMの説明可能性に関する研究を促進する。
提案手法
- 各QAペアにつき2つの異なる説明セットを用いて、Biomedical Engineering、Clinical Laboratory Science、Clinical Psychology、Occupational Therapy、Speech Language Pathology の5分野(合計965問)で MedExQA データセットを構築する。
- 重複を削除するための前処理、類似度フィルタリングに BERT コサイン類似度を適用、フェアネスのために選択肢をシャッフルする。
- Zero-shot MCQ ロジットとチャットベースの回答生成を用いて、18件のオープンソースベースライン(2.7B–70B)、3つの OpenAI GPT モデル、そして MedPhi-2 を評価する。
- BLEU、ROUGE、METEOR、BERTScore に加え、回答の正確性を組み合わせた総合スコアで説明を評価する。
- MedPhi-2 を訓練:110M 医療コーパスの事前学習 + LLaMaスタイルのパイプラインで239K件の指示ファインチューニングデータ。
- 人間の評価(3名の評価者)と比較して、生成と説明の品質を比較し、人間の判断との整合性を検証する。
実験結果
リサーチクエスチョン
- RQ1複数の説明を持つ医療QAベンチマークは、従来の正確さ重視ベンチマークより医療知識の評価をより堅牢に提供できるか。
- RQ2オープンソースの医療LLMは、特に未開拓の専門分野で高品質な医療説明を生成する能力に差があるか。
- RQ3ターゲットを絞った医療ドメインの事前学習と指示微調整(例:MedPhi-2)は、ベースとなる LLaMA ベースモデルと比較して説明品質を向上させるか。
- RQ4複数の説明を各QAペアで生成する場合、説明生成のパフォーマンスは人間の判断とより一致するか。
- RQ5モデルサイズとドメイン特化トレーニングが、専門分野全体で回答の正確さと説明品質の相対的影響にどう現れるか。
主な発見
| モデル | BE | CP | SLP | OT | CLS | MAvg |
|---|---|---|---|---|---|---|
| Medinote-7B | 33.6 (-4.9) | 34.9 (-8.5) | 23.1 (6.2) | 38.1 (-8.5) | 44.6 (-11.6) | 34.9 (-5.5) |
| Meditron-7B | 37.8 (-7.7) | 46.2 (-16.0) | 20.8 (2.3) | 42.9 (-10.6) | 43.3 (-6.7) | 38.2 (-7.8) |
| Llama2-7B | 42.0 (-9.1) | 47.2 (-9.4) | 22.3 (1.5) | 40.2 (-12.7) | 47.6 (-17.5) | 39.9 (-9.4) |
| Asclepius-7B | 44.8 (-11.2) | 47.2 (-17.0) | 27.7 (-1.5) | 42.9 (-15.3) | 45.2 (-13.4) | 41.5 (-11.7) |
| Medinote-13B | 46.2 (-18.9) | 52.8 (-30.2) | 28.5 (-4.6) | 49.2 (-28.1) | 52.4 (-20.2) | 45.8 (-20.4) |
| AlpaCare-7B | 53.2 (6.3) | 53.8 (1.9) | 26.9 (6.2) | 59.8 (-3.7) | 54.6 (-0.5) | 49.6 (2.0) |
| Asclepius-13B | 57.3 (-21.0) | 56.6 (-33.0) | 25.4 (-3.8) | 59.8 (-34.4) | 56.5 (-22.9) | 51.1 (-23.0) |
| Phi-2 | 61.5(-35.7) | 68.9 (-38.7) | 26.2 (2.3) | 64.0 (-43.4) | 50 (-25.0) | 54.1 (-28.1) |
| Llama2-13B | 63.6 (-26.6) | 65.1 (-42.8) | 27.7 (16.2) | 60.9 (-28.8) | 59.4 (-17.5) | 55.3 (-19.9) |
| MedPhi-2 | 65.7 (-5.6) | 70.8 (0.0) | 23.1 (0.0) | 65.1 (-0.5) | 55.1 (5.1) | 56.0 (-0.2) |
| AlpaCare-13B | 67.1 (-4.9) | 69.8 (-10.4) | 26.9 (-1.5) | 65.1 (-4.8) | 61.6 (-4.3) | 58.1 (-5.2) |
| Mistral | 75.5 (-11.2) | 73.6 (-10.4) | 32.3 (-6.2) | 75.7 (-6.3) | 71.2 (0.0) | 65.7 (-6.8) |
| Meditron-70B | 78.3 (-36.4) | 84.9 (-43.4) | 30.8 (-5.4) | 69.8 (-37.0) | 68.6 (-24.2) | 66.5 (-29.3) |
| Yi | 75.5 (-20.3) | 83.0 (-28.3) | 30.8 (0.8) | 74.1 (-20.6) | 73.4 (-17.2) | 67.4 (-17.1) |
| SOLAR | 74.8 (0.0) | 81.1 (-2.8) | 33.1 (-7.7) | 73.0 (-1.1) | 76.1 (-3.2) | 67.6 (-3.0) |
| InternLM2 | 77.6 (-25.2) | 82.1 (-38.7) | 29.2 (-5.4) | 74.6 (-36.0) | 75.0 (-33.6) | 67.7 (-27.8) |
| ClinicalCamel | 78.3 (-6.3) | 84.0 (-14.1) | 28.5 (-5.4) | 79.9 (-6.3) | 75.8 (-6.2) | 69.3 (-7.7) |
| Llama2-70B | 78.3 (-10.5) | 84.0 (-47.2) | 31.5 (-10.8) | 80.4 (-44.4) | 72.9 (-29.8) | 69.4 (-28.5) |
| Med42 | 83.2 (-14.) | 84.9 (-10.4) | 31.5 (-4.6) | 79.4 (-13.8) | 80.9 (-12.6) | 72.0 (-11.1) |
| GPT3.5_1106 | 72.0 | 82.1 | 29.2 | 70.4 | 71.5 | 65.0 |
| GPT4_1106 | 86.7 | 86.8 | 31.5 | 88.4 | 91.7 | 77.0 |
| GPT4_0125 | 90.2 | 91.5 | 30.8 | 90.0 | 91.7 | 78.8 |
- 二説明構成の MedExQA は、一説明または説明なしの指標よりも人間の評価と生成パフォーマンスの整合性を高める。
- MedPhi-2 は、説明生成において Llama2-70B ベースの医療LLM を上回り、ドメイン特化の事前学習と指示微調整の利点を示す。
- GPT-4 系は一般にオープンソースモデルよりMCQの正答率と説明で優れているが、Speech Language Pathology は全モデルにとって依然難しい領域。
- 70B級のオープンまたはクローズドモデルの中には、適切に訓練された小型モデルより一貫して説明品質が高いとは限らない。
- 人間の評価では、MedPhi-2 が全分野でオープンソースのトップ性能を達成し、いくつかの領域でクローズドソースモデルに匹敵または近づく。
- 複数の説明を組み込むことで、人間の判断との相関(Pearson:0.9347 から 0.9385)を強化する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。