Skip to main content
QUICK REVIEW

[논문 리뷰] Publicly Available Clinical BERT Embeddings

Emily Alsentzer, John R. Murphy|arXiv (Cornell University)|2019. 04. 06.
Topic Modeling참고 문헌 20인용 수 720
한 줄 요약

이 논문은 임상 도메인 BERT 모델(Clinical BERT 및 Discharge Summary BERT)을 MIMIC 노트에서 사전 학습하고 공개적으로 공개하며 일반 BERT 및 BioBERT 대비 MedNLI 및 i2b2 NER 작업에서 개선을 보였지만 식별 제거(de-identification) 작업에서는 그렇지 않다.

ABSTRACT

Contextual word embedding models such as ELMo (Peters et al., 2018) and BERT (Devlin et al., 2018) have dramatically improved performance for many natural language processing (NLP) tasks in recent months. However, these models have been minimally explored on specialty corpora, such as clinical text; moreover, in the clinical domain, no publicly-available pre-trained BERT models yet exist. In this work, we address this need by exploring and releasing BERT models for clinical text: one for generic clinical text and another for discharge summaries specifically. We demonstrate that using a domain-specific model yields performance improvements on three common clinical NLP tasks as compared to nonspecific embeddings. These domain-specific models are not as performant on two clinical de-identification tasks, and argue that this is a natural consequence of the differences between de-identified source text and synthetically non de-identified task text.

연구 동기 및 목표

  • 임상 텍스트의 언어적 차이가 일반 텍스트 및 생의학 텍스트와 다르므로 도메인 특화 컨텍스트 임베딩의 필요성 제시.
  • MIMIC 노트에서 Clinical BERT 모델(모든 노트)과 Discharge Summary BERT(퇴원 요약) 포함)를 사전 학습하고 공개적으로 공개합니다.
  • 임상 NLP 표준 작업에서 임상 BERT 모델을 평가하여 일반 BERT 및 BioBERT 대비 이득을 평가합니다.

제안 방법

  • MIMIC 임상 텍스트에서 두 가지 BERT 변형을 학습합니다: Clinical BERT(모든 노트)와 Discharge Summary BERT(퇴원 요약).
  • 사전 학습된 모델을 하위 작업에 대해 단일 선형 분류기를 BERT 출력 위에 두고 미세 조정합니다.
  • MedNLI와 네 가지 i2b2 NER 작업, 두 개의 식별 제거 작업을 평가하고 BERT 및 BioBERT 베이스라인과 비교합니다.
  • 표준 BERT 학습/설정을 사용하며, 시퀀스 길이, 단계 수 등 사전 학습 세부사항은 부록에 제공됩니다.
  • 정량적 지표(정확도, 정확한 F1)와 질적 임베딩 분석(최근접 이웃)을 모두 보고합니다.

실험 결과

연구 질문

  • RQ1임상적으로 학습된 BERT 모델이 일반 도메인 BERT 및 BioBERT에 비해 임상 NLP 작업에서 성능을 개선합니까?
  • RQ2노트 유형별 학습(모든 노트 대 퇴원 요약)이 작업별 이득을 가져오나요?
  • RQ3임상 BERT 임베딩은 비식별화 작업에 효과적이고 데이터 분포 차이로 인해 비식별화 작업에 덜 효과적입니까?
  • RQ4임상 맥락에서 Clinical BERT와 BioBERT 간의 질적 차이가 어떤 차이를 보입니까?

주요 결과

모델MedNLI (Accuracy)i2b2 2006 (정확 F1)i2b2 2010 (정확 F1)i2b2 2012 (정확 F1)i2b2 2014 (정확 F1)
BERT77.6%93.983.575.992.8
BioBERT80.8%94.886.578.993.0
Clinical BERT80.8%91.586.478.592.6
Discharge Summary BERT80.6%91.986.478.492.8
Bio+Clinical BERT82.7%94.787.278.992.5
Bio+Discharge Summary BERT82.7%94.887.878.992.7
  • Clinical BERT는 일반 BERT 및 BioBERT 대비 여러 임상 작업에서 개선을 보였고 MedNLI에서 새로운 최첨단 성능(82.7% 정확도)을 달성했습니다.
  • i2b2 2010 및 2012 작업에서 Clinical BERT가 우수하게 수행되지만 항상 BioBERT보다 나은 것은 아니며 Bio+Clinical BERT가 종종 최상위 성능을 냅니다.
  • Discharge Summary BERT 및 노트 유형별 학습은 일부 작업에서 추가 이득을 제공할 수 있습니다.
  • 임상 BERT는 두 개의 식별 제거 작업에서 개선을 보이지 않았으며 이는 식별 제거 데이터와 MIMIC 기반 학습 말뭉치 간의 도메인 차이 때문일 가능성이 큽니다.
  • 질적 분석은 Clinical BERT가 BioBERT보다 임상 용어 연합이 더 응집력 있게 형성됨을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.