[論文レビュー] RadAnnotate: Large Language Models for Efficient and Reliable Radiology Report Annotation
RadAnnotateはエンティティ特化型LLM分類器、取得拡張生成による合成データ、信頼度ベースの選択的自動化を組み合わせ、RadGraphスタイル放射線学エンティティの注釈を専門家の労力を削減して行う。
Radiology report annotation is essential for clinical NLP, yet manual labeling is slow and costly. We present RadAnnotate, an LLM-based framework that studies retrieval-augmented synthetic reports and confidence-based selective automation to reduce expert effort for labeling in RadGraph. We study RadGraph-style entity labeling (graph nodes) and leave relation extraction (edges) to future work. First, we train entity-specific classifiers on gold-standard reports and characterize their strengths and failure modes across anatomy and observation categories, with uncertain observations hardest to learn. Second, we generate RAG-guided synthetic reports and show that synthetic-only models remain within 1-2 F1 points of gold-trained models, and that synthetic augmentation is especially helpful for uncertain observations in a low-resource setting, improving F1 from 0.61 to 0.70. Finally, by learning entity-specific confidence thresholds, RadAnnotate can automatically annotate 55-90% of reports at 0.86-0.92 entity match score while routing low-confidence cases for expert review.
研究の動機と目的
- RadGraphスタイルエンティティに対するエンティティ特化型LLM注釈者の強みと失敗モードを特徴付ける。
- 取得拡張合成放射線報告が信頼できるRadGraphエンティティ注釈者を訓練できるか、特に希少カテゴリについて評価する。
- 自動注釈を最大化しつつ不確実なケースを専門家へ振るう信頼度誘導型選択自動化ワークフローを開発する。
提案手法
- 各RadGraphエンティティタイプ(ANAT-DP、OBS-DP、OBS-DA、OBS-U)について、sentenceレベルのデータでQLoRAを用いた命令チューニングにより4つの独立したQwen2.5-7Bモデルを訓練する。
- 報告を文に分割して約2,425件の文レベル訓練例を作成し、独立した文レベル注釈を実現する。
- キーワード抽出でRAG強化された合成報告を作成し、類似のゴールド報告を少数ショットの例として取得し、構造化プロンプトでラベル付き文を生成する。
- LLM Judge(Qwen2.5-32B)を用いて合成ラベルを検証・訂正し、訓練用の最終的な合成データセットを作成する。
- ゴールドデータ上でエンティティ特化型分類器を訓練し、合成データと比較して忠実度と転移を評価する。
- エンティティごとに信頼度閾値を実装し、エンティティ一致スコアを計算し、報告レベルの受理基準を備えた完全自動化ワークフローを展開する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 中規模のRadGraphスタイルコーパスのゴールドデータを用いて信頼できるエンティティ注釈者を構築できるか。
- RQ2RQ2: 取得拡張合成報告は希少または不確実なカテゴリの性能を向上させるか。
- RQ3RQ3: モデルの信頼度を用いて自動注釈で安全に処理できる報告数はいくらで、専門家の作業時間をどれだけ削減できるか。
主な発見
| Entity Type | Train Reports | Test Reports | Precision | Recall | F1 |
|---|---|---|---|---|---|
| ANAT-DP | 2033 | 430 | 0.9302 | 0.9444 | 0.9372 |
| OBS-DP | 1856 | 386 | 0.9226 | 0.7967 | 0.8550 |
| OBS-DA | 552 | 143 | 0.9664 | 0.9489 | 0.9576 |
| OBS-U | 309 | 52 | 0.8276 | 0.6857 | 0.7500 |
| Aggregate | 4750 | - | 0.9117 | 0.8439 | 0.8747 |
- ゴールドデータで訓練したモデルは強い総合性能を達成(F1 = 0.8747; ANAT-DP F1 = 0.9372; OBS-DP F1 = 0.8550; OBS-DA F1 = 0.9576; OBS-U F1 = 0.7500)。
- 合成のみのモデルはゴールド訓練モデルにほぼ一致し、通常1–2ポイントのF1差程度で、OBS-Uはほぼ同一の性能を示す(0.7564 vs 0.7561)。
- 合成増強(30%)はほとんどのエンティティで性能をわずかに減少させるが、非常に低リソース領域のOBS-Uを改善する(例:ゴールド50件で合成50%時にF1が0.6053から0.6622へ)。
- 低リソース設定(ゴールド50件)では、追加の合成データがOBS-UのF1を0.605から100%合成で0.710へ引き上げ、125–150%の合成データで停滞する。
- 信頼度ベースのルーティングにより、10,000件のコーパスを95%受理で自動注釈できる割合が最大55%となり、手動注釈時間を333時間から約150時間へ削減する。
- 受理閾値を90%および95%とすることで、エンドツーエンドの自動化は229–141件を受理し、残りをレビューへ回し、自動マッチスコアは約0.86–0.92程度となる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。