Skip to main content
QUICK REVIEW

[論文レビュー] WeNLEX: Weakly Supervised Natural Language Explanations for Multilabel Chest X-ray Classification

Isabel Rio-Torto, Jaime S. Cardoso|arXiv (Cornell University)|Mar 19, 2026
Explainable Artificial Intelligence (XAI)被引用数 0
ひとこと要約

WeNLEXは、画像駆動の信頼性と分布整合性を用いた説得力のある自然言語説明を生成する弱教師ありフレームワークで、ポストホック設定やモデル内設定で動作可能、素人向けにも適応可能な多ラベル胸部X線予測の説明の信頼性と適切さを高める。

ABSTRACT

Natural language explanations provide an inherently human-understandable way to explain black-box models, closely reflecting how radiologists convey their diagnoses in textual reports. Most works explicitly supervise the explanation generation process using datasets annotated with explanations. Thus, though plausible, the generated explanations are not faithful to the model's reasoning. In this work, we propose WeNLEX, a weakly supervised model for the generation of natural language explanations for multilabel chest X-ray classification. Faithfulness is ensured by matching images generated from their corresponding natural language explanations with original images, in the black-box model's feature space. Plausibility is maintained via distribution alignment with a small database of clinician-annotated explanations. We empirically demonstrate, through extensive validation on multiple metrics to assess faithfulness, simulatability, diversity, and plausibility, that WeNLEX is able to produce faithful and plausible explanations, using as little as 5 ground-truth explanations per diagnosis. Furthermore, WeNLEX can operate in both post-hoc and in-model settings. In the latter, i.e., when the multilabel classifier is trained together with the rest of the network, WeNLEX improves the classification AUC of the standalone classifier by 2.21%, thus showing that adding interpretability to the training process can actually increase the downstream task performance. Additionally, simply by changing the database, WeNLEX explanations are adaptable to any target audience, and we showcase this flexibility by training a layman version of WeNLEX, where explanations are simplified for non-medical users.

研究の動機と目的

  • 医用画像における explainability の動機付けとして、人間が理解できる NLE がモデル推論を忠実に反映することを目指す。
  • 限られた地上真実の説明しかない状態で NLE を生成する弱教師ありフレームワークを開発する。
  • 小規模な臨床医 annotat された NLE データベースを用いて説得力を担保し、モデル空間での画像特徴再構成を通じて信頼性を維持する。
  • ポストホックとモデル内学習の双方の設定で適用可能性を示し、タスク性能の潜在的向上を示す。

提案手法

  • 予測ラベルごとに1つの NLE を生成する predict–explain パラダイムを多ラベル胸部X線分類に適用する。
  • パラメータ効率チューニングに適合した frozen テキストのみの Encoder–Decoder NLE ジェネレータを用い、画像特徴量、予測ベクトル全体、対象診断テキストを入力として取り込む。
  • WGAN-GP または Maximum Mean Discrepancy (MMD) を用いて ground-truth NLE 埋め込みの小さなデータベースに対する分布整合性を通じて説得力を課す。
  • 生成された NLE を Text Embedding to Image モジュールを介して画像へマッピングし MB(E) の特徴と比較する特徴空間再構成損失を用いて信頼性を強制し、さらに NLE が MB(E) の診断予測を保持することを強制する。
  • モデル内学習では NLE 生成と分類器を共同で更新する場合があり、訓練を安定化させるために凍結された分類器のコピーを使用する。一方、ポストホック設定では分類器を凍結したまま NLE を学習させる。
  • 損失関係(説得力、NLE 分類整合、画像特徴再構成)を自動的な損失重み付けと組み合わせて全体最適化を形成する。モデル内の場合は画像分類損失項を追加して共同最適化を行う。
Figure 1 : Architecture of WeNLEX , a weakly supervised model that generates natural language explanations (NLEs) for a multilabel X-ray classifier. For each predicted diagnosis (e.g., atelectasis, edema), it produces an NLE (only the atelectasis NLE is shown). A pretrained, frozen text-only Encoder
Figure 1 : Architecture of WeNLEX , a weakly supervised model that generates natural language explanations (NLEs) for a multilabel X-ray classifier. For each predicted diagnosis (e.g., atelectasis, edema), it produces an NLE (only the atelectasis NLE is shown). A pretrained, frozen text-only Encoder

実験結果

リサーチクエスチョン

  • RQ1弱教師ありフレームワークは、モデルの推論に忠実な多ラベル胸部X線予測の自然言語説明を生成できるか?
  • RQ2生成された NLE を小規模な臨床医が注釈付けした NLE データベースに整合させる(説得力)ことと、画像特徴再構成を強制する(信頼性)ことは、さまざまな指標で質を改善するか?
  • RQ3WeNLEX の説明は、NLE データベースを変えることで一般層など異なる聴衆に適応可能か?
  • RQ4ポストホックとモデル内学習設定は、説明品質と下流分類性能に差があるか?
  • RQ5訓練中の NLE 生成を取り入れることで、分類器の下流 AUC を向上させることができるか?

主な発見

  • WeNLEX は、診断ごとに ground-truth NLE が最小で5件であっても信頼性が高く説得力のある NLE を生成できる。
  • MMD ベースの説得力損失は、生成 NLE の分布を ground-truth NLE 埋め込みに整合させる点で敵対的損失を上回り、再現可能性と説得力の指標を高める。
  • 特徴再構成損失は NLE の信頼性と多様性を向上させ、地上真実 NLE との類似性にはトレードオフが生じる場合がある。
  • NLE ベースの訓練(モデル内)はポストホックよりも良い性能と高い忠実性指標を達成し、いくつかの構成で下流の AUC が改善される。
  • 一般向け版の WeNLEX は、核心の信頼性向上を損なうことなく、非医療従事者を対象とした簡易化された説明を生成できる。
  • 本フレームワークはポストホックとモデル内の双方の運用をサポートし、信頼性、再現性、多様性、説得力の複数の評価軸で頑健性を示す。
Figure 2 : Depiction of the deletion faithfulness metric: an image and a generated NLE are given to CheXagent, which grounds the text in the image. The identified regions are occluded, and the masked image is given to the model being explained (MBE). If the NLE is faithful, occluding these regions s
Figure 2 : Depiction of the deletion faithfulness metric: an image and a generated NLE are given to CheXagent, which grounds the text in the image. The identified regions are occluded, and the masked image is given to the model being explained (MBE). If the NLE is faithful, occluding these regions s

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。