Skip to main content
QUICK REVIEW

[논문 리뷰] CheXbert: Combining Automatic Labelers and Expert Annotations for Accurate Radiology Report Labeling Using BERT

Akshay Smit, Saahil Jain|arXiv (Cornell University)|2020. 04. 20.
Topic Modeling참고 문헌 28인용 수 38
한 줄 요약

CheXbert는 규칙 기반 라벨러로 훈련된 생물의학적으로 사전학습된 BERT를 전문가 라벨로 보강된 파인튜닝과 함께 사용하여 MIMIC-CXR에서 최첨단 방사선학 보고서 라벨링을 달성하고 방사선 전문의 성능에 접근합니다.

ABSTRACT

The extraction of labels from radiology text reports enables large-scale training of medical imaging models. Existing approaches to report labeling typically rely either on sophisticated feature engineering based on medical domain knowledge or manual annotations by experts. In this work, we introduce a BERT-based approach to medical image report labeling that exploits both the scale of available rule-based systems and the quality of expert annotations. We demonstrate superior performance of a biomedically pretrained BERT model first trained on annotations of a rule-based labeler and then finetuned on a small set of expert annotations augmented with automated backtranslation. We find that our final model, CheXbert, is able to outperform the previous best rules-based labeler with statistical significance, setting a new SOTA for report labeling on one of the largest datasets of chest x-rays.

연구 동기 및 목표

  • 대규모 의학 영상 모델 학습을 위한 확장 가능한 방사선 보고서 라벨링의 동기를 제시한다.
  • 고품질 전문가 주석을 통합하면서 기존의 규칙 기반 라벨러를 활용한다.
  • 역번역 증강과 생물의학적 사전학습을 사용하여 라벨 정확도를 개선한다.

제안 방법

  • 13개 관찰 및 No Finding에 대해 14개의 태스크-특정 헤드를 가진 BERT-base 모델을 사용한다.
  • 전처리: 규칙 기반 라벨러(CheXpert)의 출력에 대해 사전학습한 다음, 전문가 주석 데이터로 파인튜닝한다.
  • 훈련 신호를 증가시키기 위해 자동 역번역으로 전문가 주석을 보강한다.
  • 양성, 음성 및 불확실 추출 작업에 걸친 가중 F1 지표로 평가한다.
  • SOTA를 확립하기 위해 CheXpert 및 방사선 전문의 벤치마크와 비교한다.
  • 재현성을 위해 코드와 가중치를 공개한다.

실험 결과

연구 질문

  • RQ1규칙 기반 라벨로 학습된 생물의학적으로 사전학습된 BERT 모델이 한정된 전문가 주석과 함께 기존의 규칙 기반 라벨러를 방사선 보고서 라벨링에서 능가할 수 있는가?
  • RQ2역번역 증강이 성능을 개선하는가, 그리고 이러한 모델이 방사선 전문의 수준의 라벨링에 얼마나 근접할 수 있는가?
  • RQ3생물의학적으로 사전학습된 변형(BioBERT, BlueBERT 등)을 사용하는 것이 다운스트림 라벨링 성능에 어떤 영향을 미치는가?
  • RQ4다양한 관찰 항목에 대해 CheXbert가 CheXpert 및 방사선 전문의 벤치마크와 어떻게 비교되는가?

주요 결과

모델F1 (95% CI)훈련 전략
CheXbert (Tblue-hybrid-bt)0.798 (0.775, 0.816)Tblue-hybrid-bt (CheXbert)
CheXpert0.743 (0.719, 0.764)CheXpert labeler only
Radiologist Benchmark0.805 (0.784, 0.823)Board-certified radiologist labels
  • CheXbert는 평균 F1 0.798(95% CI 0.775, 0.816)를 달성하며 CheXpert보다 0.055(95% CI 0.039, 0.070) 향상시켰다.
  • CheXbert는 F1 0.805로 방사선 전문의 성능에 근접하며, 방사선 전문의 벤치마크는 0.805(95% CI 0.784, 0.823)이다.
  • 역번역 보강 모델(BT가 있는 CheXbert 변형)은 비보강 기준 모델을 능가하며, 예를 들면 T-blue-hybrid-bt가 0.798 F1에 도달한다.
  • 대부분의 관찰에서 CheXpert 라벨러가 CheXbert에 의해 능가당한다; 가장 큰 이득은 Pneumonia, Fracture, Consolidation, Enlarged Cardiomediastinum, No Finding에서 발생한다.
  • CheXbert는 여러 라벨에서 견고한 개선을 보여주며 14개 중 9개 조건에서 유의한 이득을 보인다(p<0.001, CheXpert와의 비교).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.