QUICK REVIEW

[논문 리뷰] Hurtful Words: Quantifying Biases in Clinical Contextual Word Embeddings

Haoran Zhang, Amy X. Lu|arXiv (Cornell University)|2020. 03. 11.

Artificial Intelligence in Healthcare and Education참고 문헌 69인용 수 29

한 줄 요약

이 논문은 MIMIC-III 노트에 대해 피인상된 임상 BERT 임베딩의 편향을 성별, 언어, 민족, 보험 상태 등에 따라 분석하며, 로그 확률 편향 점수와 공정성 지표를 사용한다. 주로 다수 집단에 유리한 성능 격차가 존재하며, 소수 집단 환자에게는 더 해로운 권고를 내놓는 경향이 있으며, 적대적 편향 제거 기법이 완전한 해결책이 되지 못할 것을 경고한다.

ABSTRACT

In this work, we examine the extent to which embeddings may encode marginalized populations differently, and how this may lead to a perpetuation of biases and worsened performance on clinical tasks. We pretrain deep embedding models (BERT) on medical notes from the MIMIC-III hospital dataset, and quantify potential disparities using two approaches. First, we identify dangerous latent relationships that are captured by the contextual word embeddings using a fill-in-the-blank method with text from real clinical notes and a log probability bias score quantification. Second, we evaluate performance gaps across different definitions of fairness on over 50 downstream clinical prediction tasks that include detection of acute and chronic conditions. We find that classifiers trained from BERT representations exhibit statistically significant differences in performance, often favoring the majority group with regards to gender, language, ethnicity, and insurance status. Finally, we explore shortcomings of using adversarial debiasing to obfuscate subgroup information in contextual word embeddings, and recommend best practices for such deep embedding models in clinical settings.

연구 동기 및 목표

임상적 맥락 단어 임베딩이 성별, 언어, 민족, 보험 상태와 같은 보호되는 특성과 관련된 편향을 포함하고 있는지 조사하기 위해.
하류 임상 예측 과제에서 로그 확률 편향 점수와 공정성 지표를 사용하여 모델 행동의 격차를 정량화하기 위해.
임상 BERT 표현에서 하위집단 편향을 완화하기 위해 적대적 편향 제거의 효과를 평가하기 위해.
특히 고위험 임상 의사결정 지원 시스템에서 편향된 모델을 배포할 경우의 위험을 부각하기 위해.
임상 환경에서 공정하고 신뢰성 있고 공정한 NLP 시스템을 개발하기 위한 최선의 실천 방안을 제안하기 위해.

제안 방법

150만 건의 임상 노트를 포함하는 MIMIC-III 데이터셋에서 초기화된 SciBERT 기반 BERT 모델을 피인상하여 임상 BERT 기준선을 구축하였다.
실제 임상 노트 템플릿을 사용한 빈칸 채우기 과제를 통해 성별 대명사에 대한 로그 확률 편향 점수를 계산하여, 모델이 의료 맥락에서 성별을 얼마나 확신 있게 연관짓는지 측정하였다.
3가지 공정성 정의(민족적 평등, 양성 및 음성 클래스에 대한 기회의 평등)를 사용하여 50개 이상의 하류 임상 예측 과제에서 공정성을 평가하였다.
표현에서 보호되는 특성 정보를 흐리게 하는 것을 목적으로 피인상 과정 중에 적대적 편향 제거를 적용하여, 공정성과 성능에 미치는 영향을 평가하였다.
다양한 인종과 성별 프롬프트 하에서 생성된 임상 권고의 정성적 분석을 통해 보호되는 집단 간 모델 행동을 비교하였다.
하류 과제의 골드 표준 레이블로 ICD-9 코드를 사용하였지만, 보험 기반 코드화의 잠재적 레이블 편향과 오류를 인정하였다.

실험 결과

연구 질문

RQ1임상 BERT 임베딩이 성별, 인종 등 보호되는 특성과 임상 상태 사이의 편향된 관계를 어느 정도 포함하고 있는가?
RQ2BERT 표현을 사용한 하류 임상 예측 과제에서 보호되는 집단 간 성능 격차는 어떻게 나타나는가?
RQ3적대적 편향 제거가 임상 NLP 모델의 하위집단 성능 격차를 효과적으로 줄일 수 있는가?
RQ4임상 노트에서의 사전학습이 모델이 의료 텍스트 내 성별 연관성에 대해 얼마나 확신을 갖는지에 어떤 영향을 미치는가?
RQ5MIMIC-III에 대해 피인상한 후, 임상 맥락에서 남성과 여성 대명사 간의 로그 확률 편향 점수는 어떻게 달라지는가?

주요 결과

임상 BERT 모델은 성별, 언어, 민족, 보험 상태에 관계없이 보호되는 집단 간 통계적으로 유의미한 성능 격차를 보이며, 다수 집단에서 더 높은 정확도를 기록한다.
피인상 후 로그 확률 편향 점수가 증가하여, 모델이 생물학적 연관성 외에도 특정 의료 상태와 성별을 더 확신 있게 연관짓게 되었다는 것을 시사한다.
임상 맥락을 동일하게 유지한 상태에서 빈칸 채우기 과제에서 아프리카계 미국인 환자에게는 백인 환자보다 더 해로운 또는 부적절한 임상 권고를 내놓는 경향이 있었다.
적대적 편향 제거가 성능 격차를 완전히 제거하지 못했으며, 오히려 기저의 편향을 숨기는 데에 사용될 수 있어 임상 환경에서의 신뢰성에 우려를 제기한다.
이 연구는 임베딩의 편향이 데이터 불균형 때문만은 아니며, 임상 텍스트에서 스테레오타입 연관성을 학습하고 표현하는 모델의 능력에 의해 악화된다는 것을 발견하였다.
민족적 평등과 같은 공정성 정의는 의료 분야에서 문제가 될 수 있으며, 환자 안전을 희생시키면서까지 공정성을 확보하는 것은 바람직하지 않다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.