[論文レビュー] TieNet: Text-Image Embedding Network for Common Thorax Disease Classification and Reporting in Chest X-rays
TieNetは、胸部X線画像と関連する放射線科レポートからジョイントテキスト-画像埋め込みを学習し、多ラベル疾患分類を改善し予備レポートを生成するマルチタスクCNN-RNNフレームワークを提示します。注意ベースのテキストおよび画像埋め込みを活用して画像を自動注釈しレポートを作成し、複数のデータセットでベースラインを上回ります。
Chest X-rays are one of the most common radiological examinations in daily clinical routines. Reporting thorax diseases using chest X-rays is often an entry-level task for radiologist trainees. Yet, reading a chest X-ray image remains a challenging job for learning-oriented machine intelligence, due to (1) shortage of large-scale machine-learnable medical image datasets, and (2) lack of techniques that can mimic the high-level reasoning of human radiologists that requires years of knowledge accumulation and professional training. In this paper, we show the clinical free-text radiological reports can be utilized as a priori knowledge for tackling these two key problems. We propose a novel Text-Image Embedding network (TieNet) for extracting the distinctive image and text representations. Multi-level attention models are integrated into an end-to-end trainable CNN-RNN architecture for highlighting the meaningful text words and image regions. We first apply TieNet to classify the chest X-rays by using both image features and text embeddings extracted from associated reports. The proposed auto-annotation framework achieves high accuracy (over 0.9 on average in AUCs) in assigning disease labels for our hand-label evaluation dataset. Furthermore, we transform the TieNet into a chest X-ray reporting system. It simulates the reporting process and can output disease classification and a preliminary report together. The classification results are significantly improved (6% increase on average in AUCs) compared to the state-of-the-art baseline on an unseen and hand-labeled dataset (OpenI).
研究の動機と目的
- 自由テキストの放射線科レポートを事前知識として活用し、胸部X線の疾患分類と報告を改善する。
- マルチレベル注意機構を備えた統一CNN-RNNフレームワークを開発し、顕著な画像領域とテキスト語を生成する。
- 画像とテキスト埋め込みを用いた自動注釈システムを作成し、高精度の疾患ラベリングを実現する。
- モデルを胸部X線報告システムへ変換し、疾患分類と予備レポートの両方を出力する。
提案手法
- ImageNet-pretrained CNN(ResNet-50)とLSTMベースのデコーダで初期化したエンドツーエンドのCNN-RNNアーキテクチャ。
- RNN隠れ状態からグローバルなテキスト表現を得るための注意エンコードテキスト埋め込み(AETE)の組み込み。
- テキスト注目に guided された画像埋め込みを作成するサリエンシー加重グローバル平均プーリング(SW-GAP)の使用。
- 結合損失を用いた共同学習:L_overall = α L_C + (1−α) L_R、L_Cは多ラベル分類損失、L_RはRNN生成損失。
- NLPでマインドされたグラウンドトゥルースを使って病名ラベルを学習する、画像データのみ(または画像+レポートデータ)を用いる自動注釈経路。
- テスト時には画像のみを入力として多ラベル予測と生成レポートを出力する自動分類・報告システムとして適用。
実験結果
リサーチクエスチョン
- RQ1自由テキストの放射線科レポートを事前知識として活用し、胸部X線の疾患分類と報告を改善できるか。
- RQ2画像領域とレポート語のマルチレベル注意機構は、診断と記述の識別性・解釈性を高める埋め込みを強化するか。
- RQ3画像埋め込みとテキスト埋め込みからの共同学習は、 unseenデータに対する自動注釈の精度を向上させ、より正確な予備レポートを生成するか。
主な発見
- TieNetは、画像+レポート入力を使用した場合、手動ラベル評価サブセクションでAUCが0.9を超える高い自動注釈精度を達成する。
- 画像+レポート(I+R)の設定は、ChestX-ray14、Hand-labeled、OpenIデータセットのいずれにおいても、レポートのみ(R)または画像のみ(I)のベースラインを一般的に上回る。
- 統合された画像分類と報告システム(I+GR)は、3データセットで基準より一貫したAUCの向上を示す(#wAVGで2.3%〜5.7%の増分)。
- TieNetによって生成されたレポートは、ベースラインキャプショニングモデルよりBLEU、METEOR、ROUGE-Lスコアが高く、レポート品質の向上を示す。
- モデルは一般化する:ChestX-ray14で訓練された自動注釈はOpenIで良好に機能し、画像のみのモデルは外部データセットにもよく一般化する。
- テキスト注目語と空間サリエンシーマップは、予測所見の解釈可能な視覚的/テキスト的サリエンシを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。