[논문 리뷰] Med-HALT: Medical Domain Hallucination Test for Large Language Models
Med-HALT은 의료 도메인 LLM의 환각을 평가하고 완화하기 위한 새로운 벤치마크와 데이터셋을 도입하며, 다양한 국제 의학 시험과 PubMed 콘텐츠에 걸친 추론 및 기억 기반 시험을 포함합니다.
This research paper focuses on the challenges posed by hallucinations in large language models (LLMs), particularly in the context of the medical domain. Hallucination, wherein these models generate plausible yet unverified or incorrect information, can have serious consequences in healthcare applications. We propose a new benchmark and dataset, Med-HALT (Medical Domain Hallucination Test), designed specifically to evaluate and reduce hallucinations. Med-HALT provides a diverse multinational dataset derived from medical examinations across various countries and includes multiple innovative testing modalities. Med-HALT includes two categories of tests reasoning and memory-based hallucination tests, designed to assess LLMs's problem-solving and information retrieval abilities. Our study evaluated leading LLMs, including Text Davinci, GPT-3.5, LlaMa-2, MPT, and Falcon, revealing significant differences in their performance. The paper provides detailed insights into the dataset, promoting transparency and reproducibility. Through this work, we aim to contribute to the development of safer and more reliable language models in healthcare. Our benchmark can be found at medhalt.github.io
연구 동기 및 목표
- 의료 도메인 LLM의 환각 위험을 다루고 의료 서비스 적용의 안전성 및 신뢰성을 향상시킨다.
- LLM을 평가하기 위한 다양한 다국적 의료시험 문제와 PubMed에서 파생된 콘텐츠 데이터셋을 제공한다.
- 문제 해결 및 정보 검색을 조사하기 위한 두 가지 테스트 모달리티(추론 환각 테스트와 기억 환각 테스트)를 도입한다.
- 공개 평가를 위한 데이터셋 통계, 프레임워크 및 결과를 공유하여 투명성과 재현성을 촉진한다.
제안 방법
- Med-HALT를 의료 도메인 환각 평가를 위한 벤치마크와 데이터셋으로 제안한다.
- 테스트를 두 범주로 나눈다: Reasoning Hallucination Tests (RHT)와 Memory Hallucination Tests (MHT).
- RHT에는 False Confidence Test (FCT), None of the Above (NOTA) Test, 및 Fake Questions Test (FQT)가 포함된다.
- MHT는 Abstract-to-Link, PMID-to-Title, Title-to-Link, Link-to-Title 테스트를 포함하여 생물의학 데이터에서 기억 기반 검색을 평가한다.
- AIIMS PG, NEET PG (India), Spain, US, Taiwan 시험의 다양하고 다국적 말뭉치와 PubMed 콘텐츠를 사용한다.
- open 및 untuned 설정에서 다수의 LLM(Text-Davinci, GPT-3.5, LlaMA-2, MPT, Falcon)을 평가한다.

실험 결과
연구 질문
- RQ1의료 도메인에서 추론 기반 환각 작업을 선도하는 LLM들이 어떻게 수행하는가?
- RQ2LLM은 기억에서 생물의학 정보를 환각 없이 얼마나 잘 검색할 수 있는가?
- RQ3프롬프트, few-shot 샘플, 및 지시 미세조정이 의료 도메인 환각에 미치는 영향은 무엇인가?
- RQ4다국어 의료 콘텐츠 전반에서 환각 경향이 낮은 모델은 어떤 모델인가?
주요 결과
- 오픈 액세스 모델(Falcon, Llama-2)은 환각 작업에서 상용 모델(GPT-3.5, Text-Davinci)보다 종종 더 나은 성능을 보인다.
- 추론 환각 과제은 모든 모델에서 개선 여지가 크게 남아 있으며, 일부 테스트에서 허용 가능한 정확도를 달성한 모델은 없다.
- 기억 기반 검색 과제에서 Falcon 모델이 IR 과제 중에서 최상위를 보였고, 다른 모델들은 상이한 결과를 보인다.
- 지시 미세조정은 일부 모델에서 환각 제어를 악화시킬 수 있으며, 특히 Llama 계열에서 그렇다.
- 프롬프트 구성과 디코딩 매개변수는 작업 정확도에 큰 영향을 미치며, 취약성과 강건한 프롬프트 설계의 필요성을 시사한다.
- Temperature와 few-shot 설정이 성능에 영향을 주지만 예시 수가 일정 수준을 넘으면 이득이 plateau한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.