Skip to main content
QUICK REVIEW

[論文レビュー] Diagnose like a Radiologist: Attention Guided Convolutional Neural Network for Thorax Disease Classification

Qingji Guan, Yaping Huang|arXiv (Cornell University)|Jan 30, 2018
COVID-19 diagnosis using AI参考文献 31被引用数 241
ひとこと要約

AG-CNN は global, local, fusion の三分岐アーキテクチャを導入し、 global CXR 画像から切り出した attention-guided local regions を用いて ChestX-ray14 の胸部疾患分類を高精度化し、AUC の最先端を達成。

ABSTRACT

This paper considers the task of thorax disease classification on chest X-ray images. Existing methods generally use the global image as input for network learning. Such a strategy is limited in two aspects. 1) A thorax disease usually happens in (small) localized areas which are disease specific. Training CNNs using global image may be affected by the (excessive) irrelevant noisy areas. 2) Due to the poor alignment of some CXR images, the existence of irregular borders hinders the network performance. In this paper, we address the above problems by proposing a three-branch attention guided convolution neural network (AG-CNN). AG-CNN 1) learns from disease-specific regions to avoid noise and improve alignment, 2) also integrates a global branch to compensate the lost discriminative cues by local branch. Specifically, we first learn a global CNN branch using global images. Then, guided by the attention heat map generated from the global branch, we inference a mask to crop a discriminative region from the global image. The local region is used for training a local CNN branch. Lastly, we concatenate the last pooling layers of both the global and local branches for fine-tuning the fusion branch. The Comprehensive experiment is conducted on the ChestX-ray14 dataset. We first report a strong global baseline producing an average AUC of 0.841 with ResNet-50 as backbone. After combining the local cues with the global information, AG-CNN improves the average AUC to 0.868. While DenseNet-121 is used, the average AUC achieves 0.871, which is a new state of the art in the community.

研究の動機と目的

  • 胸部疾患分類を改善する動機として、全体画像ではなく疾患特異的な局所領域に焦点を当てる。
  • 胸部X線分析におけるミスアラインメントとノイズの多い背景に対処する。
  • global と local の手がかりを融合してより良い精度を得るための attention-guided な三分岐アーキテクチャを提案する。

提案手法

  • global, local, fusion の三つのブランチを持つ AG-CNN を提案。global 画像と attention で切り出された local region の両方で動作する。
  • グローバルブランチから、最後の畳み込み層の絶対値活性化のチャネルごとの最大をとって得られる注意ヒートマップ H_g を生成。
  • H_g を閾値 tau で閾値処理して二値マスク M を推定し、最大の連結領域を抽出して I から I_c を局所入力として切り出す。
  • グローバルとローカルのブランチを別々に訓練し、次にそれらの Pool5 特徴を融合ブランチで結合して最終分類を行う。
  • 3段階の訓練プロトコル: Stage I(グローバルブランチの訓練), Stage II(局所領域を切り出してローカルブランチを訓練), Stage III(Pool5 の特徴を連結して融合ブランチを訓練)。
  • ChestX-ray14 の 14 の病変と No Finding を含む multi-label 設定(C=15)で評価する。
Figure 1: Two training images from the ChestX-ray14 dataset. (a) The global images. (b) Heat maps extracted from a specific convolutional layer. (c) The cropped images from (a) guided by (b). In this paper, we consider both the original global image and the cropped local image for classification, so
Figure 1: Two training images from the ChestX-ray14 dataset. (a) The global images. (b) Heat maps extracted from a specific convolutional layer. (c) The cropped images from (a) guided by (b). In this paper, we consider both the original global image and the cropped local image for classification, so

実験結果

リサーチクエスチョン

  • RQ1attention-guided local region cropping は global-image ベースラインより胸部疾患分類を改善できるか。
  • RQ2global および local ブランチは補完的な情報を提供し、それを融合することでいずれか一方だけより精度が高くなるか。
  • RQ3局所領域の閾値 tau およびバックボーン選択(ResNet-50 vs DenseNet-121)に対して方法はどれだけ敏感か。
  • RQ4提案手法は胸部X線画像のミスアラインメントや背景ノイズに対して頑健か。

主な発見

  • Global baseline (ResNet-50) は ChestX-ray14 で平均 AUC が 0.841。
  • AG-CNN は global + local 融合で平均 AUC を 0.868 (ResNet-50) および 0.871 (DenseNet-121) に向上させ、最先端を達成。
  • Local ブランチ単独では平均 AUC が 0.817–0.810 程度とグローバル基準より低く競争力があるが、融合時には効果的。
  • 融合ブランチは 14 病変の全てのバックボーンで個別ブランチを上回る。
  • tau が約 0.7 のとき良好な性能を示し、融合は単独ブランチよりも利得を提供する。
  • 小病変カテゴリ(例: Nodule)で特に顕著な利得が見られ、局所アテンションが背景ノイズを抑制する。
Figure 2: Overall framework of the attention guided convolutional neural network (AG-CNN). We show an example with ResNet-50 as backbone. AG-CNN consists of three branches. Global and local branches consist of five convolutional blocks with batch normalization and ReLU. Each of them is then connecte
Figure 2: Overall framework of the attention guided convolutional neural network (AG-CNN). We show an example with ResNet-50 as backbone. AG-CNN consists of three branches. Global and local branches consist of five convolutional blocks with batch normalization and ReLU. Each of them is then connecte

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。