[論文レビュー] Enhancing Large Language Models with Domain-specific Retrieval Augment Generation: A Case Study on Long-form Consumer Health Question Answering in Ophthalmology
この論文は、70,000 ophthalmology 文書を用いて domain-specific Retrieval Augment Generation (RAG) パイプラインを評価し、非-RAG ベースラインと比較して長文の消費者向け健康 Q&A における事実性を向上させ、幻覚を減らすことを示しています。
Despite the potential of Large Language Models (LLMs) in medicine, they may generate responses lacking supporting evidence or based on hallucinated evidence. While Retrieval Augment Generation (RAG) is popular to address this issue, few studies implemented and evaluated RAG in downstream domain-specific applications. We developed a RAG pipeline with 70,000 ophthalmology-specific documents that retrieve relevant documents to augment LLMs during inference time. In a case study on long-form consumer health questions, we systematically evaluated the responses including over 500 references of LLMs with and without RAG on 100 questions with 10 healthcare professionals. The evaluation focuses on factuality of evidence, selection and ranking of evidence, attribution of evidence, and answer accuracy and completeness. LLMs without RAG provided 252 references in total. Of which, 45.3% hallucinated, 34.1% consisted of minor errors, and 20.6% were correct. In contrast, LLMs with RAG significantly improved accuracy (54.5% being correct) and reduced error rates (18.8% with minor hallucinations and 26.7% with errors). 62.5% of the top 10 documents retrieved by RAG were selected as the top references in the LLM response, with an average ranking of 4.9. The use of RAG also improved evidence attribution (increasing from 1.85 to 2.49 on a 5-point scale, P<0.001), albeit with slight decreases in accuracy (from 3.52 to 3.23, P=0.03) and completeness (from 3.47 to 3.27, P=0.17). The results demonstrate that LLMs frequently exhibited hallucinated and erroneous evidence in the responses, raising concerns for downstream applications in the medical domain. RAG substantially reduced the proportion of such evidence but encountered challenges.
研究の動機と目的
- 医療分野の LLM 出力における幻覚に対処するため、retrieval-augmented generation (RAG) の利用を動機づける。
- 推論時に LLM を補強するための大規模なドメイン固有文書コレクション(ophthalmology)を実証する。
- 長文の消費者向け健康 Q&A における事実性、証拠の選択/ランキング、帰属、回答品質を体系的に評価する。
提案手法
- LLM 推論時に関連資料を取得するため、70,000 ophthalmology-specific documents を用いて RAG パイプラインを構築する。
- 100 の消費者向け健康質問に対して、RAG の有無で LLM 出力を評価する。
- 医療専門家 10 名に回答を事実性、証拠の選択、帰属、回答の正確性/完全性の観点から評価してもらう。
実験結果
リサーチクエスチョン
- RQ1 ophthalmology Q&A において、 domain-specific RAG は LLM の回答における幻覚や誤った証拠を減少させるか?
- RQ2RAG は LLM の回答を支持する retrieved evidence の選択とランキングにどのような影響を与えるか?
- RQ3長文の医療回答における証拠の帰属、正確性、 完全性に対する RAG の影響は何か?
主な発見
- RAG なしでは、252 references が出力され、45.3% が幻覚、34.1% が小さな誤り、20.6% が正しい references だった。
- RAG 使用時、正確性は 54.5% の正解まで改善され、誤り率は軽微な幻覚で 18.8%、誤りで 26.7% に低下した。
- RAG により取得された上位10件の文書のうち、62.5% がトップ参照として使用され、平均ランキングは 4.9 だった。
- 証拠帰属は 5 点尺度で 1.85 から 2.49 に改善(P<0.001)した。
- 正確性は 3.52 から 3.23 に低下し、完全性は 3.47 から 3.27 に低下した(P=0.03、P=0.17)。
- 本研究は、RAG が幻覚的/誤った証拠を大幅に減らす一方で、医療現場での後続利用に課題を生じさせることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。