[논문 리뷰] NeuroSymb-MRG: Differentiable Abductive Reasoning with Active Uncertainty Minimization for Radiology Report Generation
NeuroSymb-MRG는 미분 가능 신경-상징적 귀납 추론을 검색 기반 생성 및 능동적 불확실성 최소화와 결합하여 구조화되고 임상적으로 근거 있는 방사선 보고서를 생성하고 사실성 및 표준 지표를 향상시킵니다.
Automatic generation of radiology reports seeks to reduce clinician workload while improving documentation consistency. Existing methods that adopt encoder-decoder or retrieval-augmented pipelines achieve progress in fluency but remain vulnerable to visual-linguistic biases, factual inconsistency, and lack of explicit multi-hop clinical reasoning. We present NeuroSymb-MRG, a unified framework that integrates NeuroSymbolic abductive reasoning with active uncertainty minimization to produce structured, clinically grounded reports. The system maps image features to probabilistic clinical concepts, composes differentiable logic-based reasoning chains, decodes those chains into templated clauses, and refines the textual output via retrieval and constrained language-model editing. An active sampling loop driven by rule-level uncertainty and diversity guides clinician-in-the-loop adjudication and promptbook refinement. Experiments on standard benchmarks demonstrate consistent improvements in factual consistency and standard language metrics compared to representative baselines.
연구 동기 및 목표
- 자연스럽고 사실적으로 신뢰성 높으며 임상적으로 해석 가능한 자동 방사선 보고서 생성을 목표로 한다.
- 이미지를 확률적 임상 개념에 매핑하고, 미분 가능 추론 체인을 구성하며, 템플릿화된 텍스트 출력물을 생성하는 통합 프레임워크를 개발한다.
- 초안 정제를 위해 검색 증거와 제약된 언어 모델 편집을 도입한다.
- 가치가 높고 불확실성이 큰 사례에 대해 임상의 검토를 우선시하기 위한 능동적 불확실성 최소화를 도입한다.
- 대표적인 기준선 대비 표준 방사선 보고서 벤치마크에서 개선을 시연한다.
제안 방법
- 트랜스포머 기반 개념 예측기를 통해 이미지 특징을 확률적 임상 개념으로 매핑한다.
- AND/OR/NOT 연산자를 갖는 미분 가능한 논리 계층을 사용하여 개념 위에 미분 가능하고 연성 추론 체인을 구성한다.
- 활성화된 소프트 규칙을 규칙 가이드 디코더로 표준 절 템플릿으로 해독한다.
- 해독된 절에 검색 증거와 제약된 LLM 의역을 보강하여 구조화된 초안을 형성한다.
- 검색 보강 템플릿 채움 파이프라인을 갖춘 지식, 검증자, 추론으로 구성된 다중 에이전트 오케스트레이션 시스템을 사용한다.
- 몬테카를로 드롭아웃 기반 엔트로피 및 k-센터 다양성 샘플링을 통한 능동적 불확실성 최소화를 적용하여 임상의 루프 수정 가이드를 제공한다.

실험 결과
연구 질문
- RQ1완전 신경 기반 기준선과 비교했을 때 미분 가능 신경-기호 추론 모듈이 더 사실적으로 일치하는 방사선 보고서를 생성하는가?
- RQ2규칙 수준에서의 능동적 불확실성 최소화가 사실성 신뢰성을 높이고 임상적으로 위험한 허구를 줄이는가?
- RQ3규칙 기반 디코더와 결합했을 때 검색 보강 및 제약된 LLM 정제가 보고 품질에 미치는 영향은 무엇인가?
- RQ4지식 그래프(UMLS 등)를 활용한 다중 에이전트 오케스트레이션이 보고서 충실도 및 모순 처리에 어떤 영향을 미치는가?
주요 결과
| 방법 | B-1 IU X-ray | B-2 IU X-ray | B-3 IU X-ray | B-4 IU X-ray | R-L IU X-ray | MTR IU X-ray | B-1 MIMIC-CXR | B-2 MIMIC-CXR | B-3 MIMIC-CXR | B-4 MIMIC-CXR | R-L MIMIC-CXR | MTR MIMIC-CXR |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Show-Tell [27] | 0.243 | 0.130 | 0.108 | 0.078 | 0.307 | 0.157 | 0.308 | 0.190 | 0.125 | 0.088 | 0.256 | 0.122 |
| Transformer [26] | 0.372 | 0.251 | 0.147 | 0.136 | 0.317 | 0.168 | 0.316 | 0.199 | 0.140 | 0.092 | 0.267 | 0.129 |
| Att2in [24] | 0.248 | 0.134 | 0.116 | 0.091 | 0.309 | 0.162 | 0.314 | 0.198 | 0.133 | 0.095 | 0.264 | 0.122 |
| AdaAtt [20] | 0.284 | 0.207 | 0.150 | 0.126 | 0.311 | 0.165 | 0.314 | 0.198 | 0.132 | 0.094 | 0.267 | 0.128 |
| Up-Down [2] | – | – | – | – | – | – | 0.317 | 0.195 | 0.130 | 0.092 | 0.267 | 0.128 |
| M2Transformer [6] | 0.402 | 0.284 | 0.168 | 0.143 | 0.328 | 0.170 | 0.332 | 0.210 | 0.142 | 0.101 | 0.264 | 0.134 |
| R2Gen [5] | 0.470 | 0.304 | 0.219 | 0.165 | 0.371 | 0.187 | 0.353 | 0.218 | 0.145 | 0.103 | 0.277 | 0.142 |
| Contra.Attn. [19] | 0.492 | 0.314 | 0.222 | 0.169 | 0.381 | 0.193 | 0.350 | 0.219 | 0.152 | 0.109 | 0.283 | 0.151 |
| CMCL [17] | 0.473 | 0.305 | 0.217 | 0.162 | 0.378 | 0.186 | 0.344 | 0.217 | 0.140 | 0.097 | 0.281 | 0.133 |
| CMN [4] | 0.475 | 0.309 | 0.222 | 0.170 | 0.375 | 0.191 | 0.353 | 0.218 | 0.148 | 0.106 | 0.278 | 0.142 |
| Aligntransformer [32] | 0.484 | 0.313 | 0.225 | 0.173 | 0.379 | 0.204 | 0.378 | 0.235 | 0.156 | 0.112 | 0.283 | 0.158 |
| M2Tr.Prog. [21] | 0.486 | 0.317 | 0.232 | 0.173 | 0.390 | 0.192 | 0.378 | 0.232 | 0.154 | 0.107 | 0.272 | 0.145 |
| CMM+RL [22] | 0.481 | 0.316 | 0.228 | 0.181 | 0.384 | 0.201 | 0.381 | 0.232 | 0.155 | 0.109 | 0.287 | 0.151 |
| XPRONET* [28] | 0.491 | 0.325 | 0.228 | 0.169 | 0.387 | 0.202 | 0.344 | 0.215 | 0.146 | 0.105 | 0.279 | 0.138 |
| MCGN [30] | 0.481 | 0.316 | 0.226 | 0.171 | 0.372 | 0.190 | 0.373 | 0.235 | 0.162 | 0.120 | 0.282 | 0.143 |
| PPKED [18] | 0.483 | 0.315 | 0.224 | 0.168 | 0.376 | – | 0.360 | 0.224 | 0.149 | 0.106 | 0.284 | 0.149 |
| RAMT [33] | 0.482 | 0.310 | 0.221 | 0.165 | 0.377 | 0.195 | 0.362 | 0.229 | 0.157 | 0.113 | 0.284 | 0.153 |
| R2GenGPT [29] | 0.482 | 0.306 | 0.215 | 0.158 | 0.370 | 0.200 | 0.387 | 0.248 | 0.170 | 0.123 | 0.280 | 0.149 |
| VLCI ${\dagger}$ [3] | 0.324 | 0.211 | 0.151 | 0.115 | 0.379 | 0.166 | 0.357 | 0.216 | 0.144 | 0.103 | 0.256 | 0.136 |
| PromptMRG [11] | 0.401 | – | – | – | 0.281 | 0.160 | 0.398 | – | – | 0.112 | 0.268 | 0.157 |
| MedRAT [9] | 0.455 | – | – | – | 0.349 | – | 0.365 | – | – | 0.086 | 0.251 | – |
| MRG-LLM [14] | 0.529 | 0.359 | 0.266 | 0.202 | 0.408 | 0.221 | 0.416 | 0.267 | 0.182 | 0.129 | 0.296 | 0.163 |
| NeuroSymb-MRG (Ours) | 0.602 | 0.425 | 0.321 | 0.253 | 0.463 | 0.275 | 0.487 | 0.332 | 0.234 | 0.175 | 0.362 | 0.225 |
- NeuroSymb-MRG는 IU X-ray 및 MIMIC-CXR에서 강력한 기준선보다 자동 지표가 더 높게 나타난다(BLEU, ROUGE-L, METEOR).
- 규칙 수준의 미분 가능 추론과 규칙 디코더의 결합이 MLP만 사용하거나 비-기호적 기준선보다 어휘적/의미적 품질을 향상시킨다.
- 검색 보강과 LLM 제약 단계가 이득을 제공하고 검증자를 통해 모순을 완화하는 데 도움을 준다.
- 엔트로피 기반 샘플링과 다양성(k-center)을 통한 능동적 불확실성 최소화가 품질을 유지하면서 주석 필요성을 줄인다.
- 지식 에이전트와 UMLS 검증을 포함한 다중 에이전트 구성이 사실성 가능성을 향상시키고 서로 충돌하는 주장를 감소시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.