QUICK REVIEW

[論文レビュー] KG-Rank: Enhancing Large Language Models for Medical QA with Knowledge Graphs and Ranking Techniques

Rui Yang, Haoran Liu|arXiv (Cornell University)|Mar 9, 2024

Topic Modeling被引用数 5

ひとこと要約

KG-Rank は UMLS からのワンホップ KG トリプレットを取得し、複数の戦略でそれらをランキング/リランキングし、事実性を高めた長文回答を生成することで LLM ベースの医療 QA を強化する。さらに DBpedia に基づく取得を用いたオープンドメインの利得も示す。

ABSTRACT

Large language models (LLMs) have demonstrated impressive generative capabilities with the potential to innovate in medicine. However, the application of LLMs in real clinical settings remains challenging due to the lack of factual consistency in the generated content. In this work, we develop an augmented LLM framework, KG-Rank, which leverages a medical knowledge graph (KG) along with ranking and re-ranking techniques, to improve the factuality of long-form question answering (QA) in the medical domain. Specifically, when receiving a question, KG-Rank automatically identifies medical entities within the question and retrieves the related triples from the medical KG to gather factual information. Subsequently, KG-Rank innovatively applies multiple ranking techniques to refine the ordering of these triples, providing more relevant and precise information for LLM inference. To the best of our knowledge, KG-Rank is the first application of KG combined with ranking models in medical QA specifically for generating long answers. Evaluation on four selected medical QA datasets demonstrates that KG-Rank achieves an improvement of over 18% in ROUGE-L score. Additionally, we extend KG-Rank to open domains, including law, business, music, and history, where it realizes a 14% improvement in ROUGE-L score, indicating the effectiveness and great potential of KG-Rank.

研究の動機と目的

Structured medical knowledge を統合して LLM ベースの医療 QA の事実性と信頼性を改善することを動機づける。
LLM 推論前に知識グラフのトリプレットを取得・ランク付けして長文回答を生成する KG-Rank を提案する。
複数の ranking 戦略（類似度、回答拡張、MMR）を開発・比較し、ノイズを減らして事実性を高める再ランキング手順を検討する。
4 つの医療 QA データセットで有効性を実証し、オープンドメイン QA への適用を拡張する。

提案手法

外部 KG を G=(V,E) と定義し、UMLS を主要な医療KG として用いる。
Medical NER Prompt を用いて質問から医療エンティティを抽出し、KG エンティティにマッピングする。
Q 関連エンティティの one-hop 関係を UMLS から取得し、UmlsBERT でトリプレットをエンコードする。
3 つの ranking 手法（Similarity Ranking、Answer Expansion Ranking、MMR Ranking）を適用して関連するトリプレットを選択する。
医療クロスエンコーダを用いて再ランキングを実行し、トップ- p のトリプレットを確定する。
タスクプロンプトとトップ- p のトリプレットを LLM（GPT-4 または LLM 変種）に入力して最終的な自由形式の回答を生成する。
Mintaka で UMLS の代わりに DBpedia を用いてフレームワークをオープン-domain QA に拡張し、標準指標で評価する。

実験結果

リサーチクエスチョン

RQ1医療知識グラフをランキング手法と組み合わせることで、LLMs の長文医療 QA の事実性と有用性を改善できるか。
RQ2ランキング戦略は医療 QA のための KG トリプレットにおいてノイズを効果的にフィルタリングし、キー情報を強調できるか。
RQ3KG-Rank は医療ドメインと比較してオープンドメイン QA でどう性能を示すか。
RQ4再ランキングと医療クロスエンコーダが最終回答の品質に与える影響はどれくらいか。

主な発見

データセット	手法	GPT-4 ROUGE-L	GPT-4 BERTScore	GPT-4 MoverScore	GPT-4 BLEURT	LLaMA2-13b ROUGE-L	LLaMA2-13b BERTScore	LLaMA2-13b MoverScore	LLaMA2-13b BLEURT
LiveQA	ZS	18.89	82.50	54.02	39.84	17.73	81.93	53.37	40.45
LiveQA	Sim	19.35	83.01	54.08	40.47	18.52	82.78	53.79	40.59
LiveQA	AE	19.24	82.95	54.04	40.15	18.45	82.60	53.70	39.80
LiveQA	MMR	19.32	82.91	54.03	40.55	18.25	82.70	53.67	40.22
ExpertQA-Bio	ZS	23.00	84.50	56.15	44.53	23.26	84.38	55.58	44.65
ExpertQA-Bio	Sim	25.90	85.72	56.73	45.10	24.96	84.91	55.83	44.35
ExpertQA-Bio	AE	26.78	85.77	56.79	45.18	24.84	84.97	55.72	43.55
ExpertQA-Bio	MMR	26.54	85.76	56.77	44.93	25.40	85.08	55.98	44.04
ExpertQA-Med	ZS	25.45	85.11	56.50	45.98	24.86	84.89	55.74	46.32
ExpertQA-Med	Sim	27.61	86.10	57.13	46.47	26.40	85.50	56.23	46.15
ExpertQA-Med	AE	27.98	86.12	57.25	46.80	26.15	85.36	56.17	46.02
ExpertQA-Med	MMR	27.78	86.22	57.28	46.84	26.42	85.57	56.24	46.41
MedicationQA	ZS	14.41	82.55	52.62	37.41	13.30	81.81	51.96	38.30
MedicationQA	Sim	16.05	83.56	53.23	37.60	14.60	82.73	52.47	38.38
MedicationQA	AE	16.13	83.46	53.23	37.87	14.19	82.50	52.33	37.90
MedicationQA	MMR	15.89	83.48	53.22	37.73	14.56	82.69	52.44	38.31

KG-Rank は医療 QA データセット4件で zero-shot 設定において ROUGE-L を 18% 以上改善。
オープン・ドメイン QA では KG-Rank が約 ROUGE-L の 14% の改善を達成。
RR（再ランキング）手法は特に ExpertQA-Bio、ExpertQA-Med、MedicationQA の結果を押し上げる。
GPT-4 は zero-shot および ranking 設定の両方で LLaMA2-13b を一貫して上回る。
MedCPT ベースの再ランキングモデルは医療QA再ランキング段階で Cohere を上回る。
Mintaka（DBpedia）へのオープン-ドメイン拡張は正確性を 60.40% から 61.90% に改善した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。