[論文レビュー] CheXbert: Combining Automatic Labelers and Expert Annotations for Accurate Radiology Report Labeling Using BERT
CheXbertは、ルールベースのラベラーで事前学習された生物医学的BERTを組み合わせ、専門家ラベルによる微調整とバックトランスレーションで強化することで、MIMIC-CXRにおける放射線報告のラベリングで最先端を達成し、放射線科医の性能に近づける。
The extraction of labels from radiology text reports enables large-scale training of medical imaging models. Existing approaches to report labeling typically rely either on sophisticated feature engineering based on medical domain knowledge or manual annotations by experts. In this work, we introduce a BERT-based approach to medical image report labeling that exploits both the scale of available rule-based systems and the quality of expert annotations. We demonstrate superior performance of a biomedically pretrained BERT model first trained on annotations of a rule-based labeler and then finetuned on a small set of expert annotations augmented with automated backtranslation. We find that our final model, CheXbert, is able to outperform the previous best rules-based labeler with statistical significance, setting a new SOTA for report labeling on one of the largest datasets of chest x-rays.
研究の動機と目的
- 大規模な医用画像モデルの訓練のための放射線報告ラベリングのスケーラビリティを促進する。
- 既存のルールベースのラベラーを活用しつつ、高品質な専門家アノテーションを取り入れる。
- バックトランスレーションによるデータ拡張と生物医学的事前学習を使用してラベルの忠実度を向上させる。
提案手法
- No Findingを含む13の観察とタスク固有の14頭を持つBERT-baseモデルを使用する。
- 専門家がアノテートしたデータで微調整する前に、ルールベースのラベラー(CheXpert)の出力で事前学習する。
- 訓練信号を増やすために自動バックトランスレーションで専門家アノテーションを補強する。
- 正例・負例・不確定抽出タスクを跨ぐ重み付きF1指標で評価する。
- CheXpertと放射線科医のベンチマークと比較して最先端(SOTA)を確立する。
- 再現性のためにコードと重みを公開する。
実験結果
リサーチクエスチョン
- RQ1ルールベースのラベルと限られた専門家アノテーションで学習した生物医学的事前学習BERTモデルは、放射線報告ラベリングにおいて既存のルールベースラベラーを上回ることができるか。
- RQ2バックトランスレーション拡張は性能を改善するか、そしてこのようなモデルは放射線科医レベルのラベリングにどの程度近づけるか。
- RQ3バイオメディカル事前学習済みの派生モデル(BioBERT、BlueBERT など)の導入が下流のラベリング性能に与える影響は?
- RQ4CheXbertはさまざまな観察項目でCheXpertおよび放射線科医のベンチマークとどのように比較されるか?
主な発見
| Model | F1 (95% CI) | Training Strategy |
|---|---|---|
| CheXbert (Tblue-hybrid-bt) | 0.798 (0.775, 0.816) | Tblue-hybrid-bt (CheXbert) |
| CheXpert | 0.743 (0.719, 0.764) | CheXpert labeler only |
| Radiologist Benchmark | 0.805 (0.784, 0.823) | Board-certified radiologist labels |
- CheXbertは平均F1=0.798(95%信頼区間0.775, 0.816)を達成し、CheXpertを0.055(95%信頼区間0.039, 0.070)改善した。
- CheXbertは放射線科医の性能に近づき、F1=0.805(放射線科医ベンチマーク0.805、95%CI 0.784, 0.823)。
- バックトランスレーションを用いたモデル(BT付きのCheXbert系統)は、非拡張のベースラインを上回り、例としてT-blue-hybrid-btは0.798のF1を達成。
- ほとんどの観察項目でCheXpertラベラーをCheXbertが上回る;最大の改善はPneumonia、Fracture、Consolidation、Enlarged Cardiomediastinum、No Finding。
- CheXbertは複数のラベルで堅牢な改善を示し、14項目中9項目で有意な改善を達成(CheXpertとの比較でp<0.001)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。