[論文レビュー] Med-HALT: Medical Domain Hallucination Test for Large Language Models
Med-HALT は新しいベンチマークとデータセットを導入し、医療領域の LLM における幻覚を評価・低減する。推論と記憶ベースのテストを、多様な国際的医療試験と PubMed のコンテンツに跨って実施。
This research paper focuses on the challenges posed by hallucinations in large language models (LLMs), particularly in the context of the medical domain. Hallucination, wherein these models generate plausible yet unverified or incorrect information, can have serious consequences in healthcare applications. We propose a new benchmark and dataset, Med-HALT (Medical Domain Hallucination Test), designed specifically to evaluate and reduce hallucinations. Med-HALT provides a diverse multinational dataset derived from medical examinations across various countries and includes multiple innovative testing modalities. Med-HALT includes two categories of tests reasoning and memory-based hallucination tests, designed to assess LLMs's problem-solving and information retrieval abilities. Our study evaluated leading LLMs, including Text Davinci, GPT-3.5, LlaMa-2, MPT, and Falcon, revealing significant differences in their performance. The paper provides detailed insights into the dataset, promoting transparency and reproducibility. Through this work, we aim to contribute to the development of safer and more reliable language models in healthcare. Our benchmark can be found at medhalt.github.io
研究の動機と目的
- 医療領域の LLM における幻覚のリスクに対処し、医療分野のアプリケーションでの安全性と信頼性を向上させる。
- LLMs を評価するための、医療試験問題と PubMed に由来する内容からなる多様で多国籍なデータセットを提供する。
- 問題解決と情報検索を評価するための2つのテストモード(推論幻覚テストと記憶幻覚テスト)を導入する。
- データセットの統計、フレームワーク、結果を公開評価のために共有することで、透明性と再現性を促進する。
提案手法
- 医療領域の幻覚評価のためのベンチマークとデータセットとして Med-HALT を提案する。
- テストを2つのカテゴリに分ける:Reasoning Hallucination Tests (RHT) と Memory Hallucination Tests (MHT)。
- RHT には False Confidence Test (FCT)、None of the Above (NOTA) Test、Fake Questions Test (FQT) が含まれる。
- MHT には Abstract-to-Link、PMID-to-Title、Title-to-Link、Link-to-Title テストを含み、生物医療データからの記憶ベースの検索を評価する。
- AIIMS PG、NEET PG (India)、スペイン、米国、台湾の試験、および PubMed コンテンツを含む多様で多国籍なコーパスを使用する。
- Text-Davinci、GPT-3.5、LlaMA-2、MPT、Falcon など、複数の LLM をオープンかつ未調整の設定で評価する。

実験結果
リサーチクエスチョン
- RQ1医療領域における推論ベースの幻覚課題で、先行する LLM はどの程度の性能を示すか。
- RQ2LLMs は幻覚なしに記憶から生物医科学情報をどれだけ正しく取得できるか。
- RQ3プロンプト、few-shot の例、指示調整が医療領域の幻覚に与える影響はどのようか。
- RQ4多言語の医療コンテンツ全体で、幻覚傾向が低いと示すモデルはどれか。
主な発見
- オープンアクセスモデル(Falcon、Llama-2)は、幻覚タスクで商用モデル(GPT-3.5、Text-Davinci)を上回ることが多い。
- 推論幻覚タスクは全モデルで大幅な改善余地を示し、一部のテストでは許容される精度を達成したモデルはない。
- 記憶ベース検索タスクでは Falcon モデルが IR タスクで最も良い成績を示し、他のモデルでは異なる結果となった。
- 指示調整は一部のモデル、特に Llama ベースのものでは幻覚の抑制を悪化させる可能性がある。
- プロンプトの framing とデコードパラメータはタスクの精度に大きく影響し、脆弱性と頑健なプロンプト設計の必要性を示している。
- Temperature と few-shot 設定は性能に影響するが、例の数が一定を超えると利得は頭打ちになる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。