[논문 리뷰] Bias patterns in the application of LLMs for clinical decision support: A comprehensive study
본 연구는 세 가지 임상 QA 데이터셋에서 eight LLMs의 편향 패턴을 레드팀링과 프롬프트 전략을 사용하여 평가하고, 이질적인 편향이 존재하며 프롬프트 설계(특히 Chain of Thought)가 편향된 결과를 줄일 수 있음을 시사한다.
Large Language Models (LLMs) have emerged as powerful candidates to inform clinical decision-making processes. While these models play an increasingly prominent role in shaping the digital landscape, two growing concerns emerge in healthcare applications: 1) to what extent do LLMs exhibit social bias based on patients' protected attributes (like race), and 2) how do design choices (like architecture design and prompting strategies) influence the observed biases? To answer these questions rigorously, we evaluated eight popular LLMs across three question-answering (QA) datasets using clinical vignettes (patient descriptions) standardized for bias evaluations. We employ red-teaming strategies to analyze how demographics affect LLM outputs, comparing both general-purpose and clinically-trained models. Our extensive experiments reveal various disparities (some significant) across protected groups. We also observe several counter-intuitive patterns such as larger models not being necessarily less biased and fined-tuned models on medical data not being necessarily better than the general-purpose models. Furthermore, our study demonstrates the impact of prompt design on bias patterns and shows that specific phrasing can influence bias patterns and reflection-type approaches (like Chain of Thought) can reduce biased outcomes effectively. Consistent with prior studies, we call on additional evaluations, scrutiny, and enhancement of LLMs used in clinical decision support applications.
연구 동기 및 목표
- 표준화된 vignette 데이터셋을 사용하여 제어된 임상 작업에서 LLM이 사회적 편견을 어떻게 나타내는지 평가한다.
- 일반 목적 LLM과 도메인 튜닝된 LLM을 비교하여 모델 아키텍처 및 학습 데이터가 편향에 미치는 영향을 이해한다.
- 제로샷, few-shot, Chain of Thought를 포함한 프례프트 전략이 편향 패턴에 미치는 영향을 평가한다.
- 편향 출력의 위험이 더 높은 작업 유형과 하위 인구집단을 식별하고 완화 방법을 논의한다.
제안 방법
- Q-Pain, nurse bias, NEJM Healer와 같은 표준화된 vignette를 가진 세 가지 임상 QA 데이터셋을 사용하여 인구통계에 걸친 편향을 탐색한다.
- 환자 인구통계를 순환시키며 다수의 LLM(open-source general-purpose, domain-focused, and closed-source)로 출력을 평가하는 레드팀핑을 적용한다.
- 선정된 데이터셋에서 zero-shot, few-shot, Chain of Thought의 세 가지 프롬프트 기법을 테스트하여 편향 및 성능 차이를 측정한다.
- Welch’s ANOVA와 이진 결과에 대한 쌍체 t-검정, 그리고 Likert 척도 평점에 대한 Pearson의 Chi-Squared 검정을 사용하여 편향을 정량화한다.
- 모델 아키텍처와 프롬프트 방법 간의 결과를 분석하여 편향 패턴과 잠재적 완화 효과를 파악한다.

실험 결과
연구 질문
- RQ1제어된 임상 의사결정 작업에서 LLM이 편향적 패턴을 보이는 정도는 어느가인가?
- RQ2모델 설계 선택(아키텍처, 도메인 특화 파인튜닝)이 관찰되는 편향에 어떤 영향을 미치는가?
- RQ3제로샷, few-shot, Chain of Thought 프롬프트가 임상 QA 작업의 공정성에 어떤 영향을 주는가?
주요 결과
- 편향은 보호된 그룹 및 작업 간에 차이가 존재하며, 일부 모델은 권고나 인식에서 유의한 차이를 보인다.
- 모델 크기만으로 편향을 예측할 수는 없으며, 일부 더 작은 도메인 특화 모델이 상당한 편향을 보이는 반면 다른 모델은 비교적 공정한 편을 보인다.
- 임상적으로 튜닝된 모델(예: Palmyra-Med, Meditron)은 통증 관리 및 치료 권고에서 주목할 만한 편향을 보일 수 있으며, 반면 GPT-4는 작업에 따라 다르게 나타난다.
- Chain of Thought 프롬프트는 제로샷이나 단순 Few-shot 프롬프팅에 비해 편향을 줄이고 의사결정의 정당화를 개선하는 경향이 있다.
- 프롬프트 엔지니어링과 질문의 신중한 프레이밍은 공정성에 영향을 줄 수 있어, 모델 재학습 없이도 편향을 완화할 실용적 방법을 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.