Skip to main content
QUICK REVIEW

[論文レビュー] Augmenting Black-box LLMs with Medical Textbooks for Biomedical Question Answering

Yubo Wang, Xueguang Ma|arXiv (Cornell University)|Sep 5, 2023
Topic Modeling被引用数 15
ひとこと要約

この論文は、Query Augmenter、Hybrid Textbook Retriever、LLM Reader からなるパイプラインで、ブラックボックス LLM を権威ある医療教科書と結び付け、医療 QA の性能を向上させ、幻覚を減少させる LLM-AMT を提案します。

ABSTRACT

Large-scale language models (LLMs) like ChatGPT have demonstrated impressive abilities in generating responses based on human instructions. However, their use in the medical field can be challenging due to their lack of specific, in-depth knowledge. In this study, we present a system called LLMs Augmented with Medical Textbooks (LLM-AMT) designed to enhance the proficiency of LLMs in specialized domains. LLM-AMT integrates authoritative medical textbooks into the LLMs' framework using plug-and-play modules. These modules include a Query Augmenter, a Hybrid Textbook Retriever, and a Knowledge Self-Refiner. Together, they incorporate authoritative medical knowledge. Additionally, an LLM Reader aids in contextual understanding. Our experimental results on three medical QA tasks demonstrate that LLMAMT significantly improves response quality, with accuracy gains ranging from 11.6% to 16.6%. Notably, with GPT-4-Turbo as the base model, LLM-AMT outperforms the specialized Med-PaLM 2 model pre-trained on a massive amount of medical corpus by 2-3%. We found that despite being 100x smaller in size, medical textbooks as a retrieval corpus is proven to be a more effective knowledge database than Wikipedia in the medical domain, boosting performance by 7.8%-13.7%.

研究の動機と目的

  • 医療QA における幻覚を減らし、正確さを向上させるためにドメイン固有の知識の必要性を動機づける。
  • 大規模モデルをファインチューニングすることなく、ブラックボックス LLM を補完する外部知識ソースとして教科書を導入する。
  • Query Augmenter、Hybrid Textbook Retriever、LLM Reader から成るプラグアンドプレーのパイプラインを開発する。
  • 医療のオープンドメイン QA ベンチマークでアプローチを評価し、Wikipedia 拡張とクローズドブックのベースラインと比較する。

提案手法

  • Query Augmenter は、症状を医療用語に翻訳し、連鎖思考プロンプティングを用いて拡張クエリを生成するように LLM を用いて質問を再表現・拡張する。
  • Hybrid Textbook Retriever (HybTextR) は、スパース(SPLADE)、デンス(DPR)、レイテンストークンの相互作用(ColBERT)リトリーバとクロスエンコーダ再ランキングを組み合わせ、51 教科書コーパスからトップパッセージを選択する。
  • LLM Reader は、 retrieved 教科書の証拠を質問と結合し、構造化プロンプティングと連鎖思考を用いて複数の解答を生成し、それらを選択肢ごとの信頼度スコアで多数決により統合する。
  • 教科書からの証拠は回答生成の主な文脈として機能し、リトリーバと再ランキングの融合により検索性能を最適化する。
  • システムは N 件の retrieved 証拠に対して多数決メカニズムを用いて、信頼度スコアを集約して最終回答を決定する。

実験結果

リサーチクエスチョン

  • RQ1医療教科書を用いた LLM の補強は、オープンディメインの臨床 QA における正確さと専門性を向上させるか。
  • RQ2教科書ベースの拡張は医療分野における Wikipedia 拡張と比較してどうか。
  • RQ3どの構成要素(リトリーバ、クエリ拡張、多数決)が性能向上に最も寄与するか。
  • RQ4リトリーバーのアンサンブルと再ランキングの使用が医療 QA の性能に与える影響は。
  • RQ5本アプローチはオープンエンドの医療 QA における幻覚発生率にどのような影響を与えるか。

主な発見

手法MedQA-USMLEMedQA-MCMLEMedMCQA
GPT-3.5 (baseline)51.358.253.9
Textbook-Augmented Model (LLaMA) HybTextR42.243.8-
Textbook-Augmented Model (GPT-3.5) HybTextR64.565.3-
  • 教科書を用いた LLM-AMT は MedQA データセットで GPT-3.5-Turbo ベースラインを 11.4%–13.2% 向上させた。
  • 教科書拡張は Wikipedia 拡張を上回り、9.7%–12.2% のゲインを達成した。
  • 教科書ベースのアプローチは、同一ベースラインに対するオープンエンド QA で幻覚を 16% 減少させた。
  • HybTextR(sparse+dense+rerank)は、データセット全体で最良の結果を示す(MedQA-USMLE: 62.0%、MedQA-MCMLE: 68.9%、MedMCQA: 65.2%)。
  • 非選択肢 QA 評価では、LLM-AMT が GPT-3.5-Turbo ベースラインより正解数・部分正解数を多く達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。