[논문 리뷰] WeNLEX: Weakly Supervised Natural Language Explanations for Multilabel Chest X-ray Classification
WeNLEX은 다중 레이블 흉부 X선 예측에 대해 이미지 구동의 충실성과 분포 정합 가능성에 기반한 자연어 설명을 생성하는 약하게 감독된 프레임워크로, 후처리(post-hoc) 또는 모델 내(in-model) 설정에서 작동하며 일반 대중에게도 적응할 수 있습니다.
Natural language explanations provide an inherently human-understandable way to explain black-box models, closely reflecting how radiologists convey their diagnoses in textual reports. Most works explicitly supervise the explanation generation process using datasets annotated with explanations. Thus, though plausible, the generated explanations are not faithful to the model's reasoning. In this work, we propose WeNLEX, a weakly supervised model for the generation of natural language explanations for multilabel chest X-ray classification. Faithfulness is ensured by matching images generated from their corresponding natural language explanations with original images, in the black-box model's feature space. Plausibility is maintained via distribution alignment with a small database of clinician-annotated explanations. We empirically demonstrate, through extensive validation on multiple metrics to assess faithfulness, simulatability, diversity, and plausibility, that WeNLEX is able to produce faithful and plausible explanations, using as little as 5 ground-truth explanations per diagnosis. Furthermore, WeNLEX can operate in both post-hoc and in-model settings. In the latter, i.e., when the multilabel classifier is trained together with the rest of the network, WeNLEX improves the classification AUC of the standalone classifier by 2.21%, thus showing that adding interpretability to the training process can actually increase the downstream task performance. Additionally, simply by changing the database, WeNLEX explanations are adaptable to any target audience, and we showcase this flexibility by training a layman version of WeNLEX, where explanations are simplified for non-medical users.
연구 동기 및 목표
- 의료 영상에서 모델 추론을 충실하게 반영하는 인간이 이해할 수 있는 NLE를 생성하여 Explainability를 촉진한다.
- 제한된 실제 정답 설명으로 NLE를 생성하는 약하게 감독된 프레임워크를 개발한다.
- 작은 의사-주석 NLE 데이터베이스를 통해 타당성을 보장하고 모델 공간에서 이미지 특징 재구성을 통해 충실함을 유지한다.
- 후처리와 모델 내 두 가지 설정 모두에서 적용 가능성을 보여주고 태스크 성능 향상의 가능성을 제시한다.
제안 방법
- 다중 레이블 흉부 X선 분류에 대해 예측된 각 레이블마다 하나의 NLE을 생성하는 Predict–Explain 패러다임을 채택한다.
- 이미지 특징, 전체 예측 벡터, 대상 진단 텍스트를 입력으로 받도록 매개변수 효율적 튜닝으로 적응된 텍스트 전용 Encoder–Decoder NLE 생성기를 사용한다.
- WGAN-GP 또는 Maximum Mean Discrepancy(MMD)를 사용하여 소규모의 실제 NLE 임베딩 데이터베이스와의 분포 정합성으로 타당성을 부여한다.
- 생성된 NLE를 Text Embedding to Image 모듈을 통해 이미지로 매핑하고 MBE의 특징과 비교하는 특징 공간 재구성 손실로 충실함을 강제하고, NLE가 MBE의 진단 예측을 보존하도록 한다.
- 모델 내 학습 시 분류기를 NLE 생성과 함께 공동 최적화하도록 선택적으로 업데이트하고, 학습 안정화를 위해 고정된 분류기 사본을 사용한다. 그렇지 않으면 후처리 설정에서 분류기는 고정된 채로 NLE가 학습된다.
- 타당성, NLE 분류 정렬, 이미지 특징 재구성 손실을 자동 가중치로 결합하여 전체 목적 함수를 형성한다. 모델 내의 경우 시각-분류 손실 항을 추가하여 공동 최적화를 수행한다.

실험 결과
연구 질문
- RQ1약하게 감독된 프레임워크가 모델의 추론에 충실한 다중 레이블 흉부 X선 예측에 대한 자연어 설명을 생성할 수 있는가?
- RQ2생성된 NLE를 소규모 의사 주석 NLE 데이터베이스에 정렬시키는 것(타당성)과 이미지 특징 재구성 강제(충실함)가 다양한 평가 지표에서 품질을 향상시키는가?
- RQ3NLE 데이터베이스를 바꾸어 일반인과 같은 다양한 대상에게 WeNLEX 설명을 적응시키는 것이 가능한가?
- RQ4후처리와 모델 내 학습 설정이 설명 품질 및 다운스트림 분류 성능에 차이가 있는가?
- RQ5학습 중 NLE 생성을 도입하면 분류기의 다운스트림 AUC가 향상되는가?
주요 결과
- WeNLEX는 진단당 단 다섯 개의 실제 NLE로도 충실하고 그럴듯한 NLE를 생성할 수 있다.
- MMD 기반 타당성 손실은 생성된 NLE 분포를 실제 NLE 임베딩과 정렬하는 데 있어 적대적 손실보다 우수하며, 시뮬레이션 가능성 및 타당성 지표를 높인다.
- 특징 재구성 손실은 NLE의 충실함과 다양성을 향상시키며, 실제 NLE 유사도에는 다소의 트레이드오프를 보인다.
- NLE 기반 학습(모델 내)은 후처리보다 더 나은 성능과 높은 충실도 지표를 달성하며, 일부 구성을 포함해 다운스트림 AUC를 개선한다.
- 일반인 버전의 WeNLEX는 핵심 충실도 향상을 희생하지 않고 비의료 사용자 대상의 간단한 설명을 생성할 수 있다.
- 이 프레임워크는 후처리와 모델 내 동작 모두를 지원하며, 충실도, 시뮬레이션 가능성, 다양성, 타당성 등 여러 평가 차원에서 견고함을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.