QUICK REVIEW

[論文レビュー] Learning to Read Chest X-Rays: Recurrent Neural Cascade Model for Automated Image Annotation

Hoo-Chang Shin, Kirk Roberts|arXiv (Cornell University)|Mar 28, 2016

Multimodal Machine Learning Applications参考文献 55被引用数 33

ひとこと要約

本稿では、画像とテキストの文脈を統合的に学習することで、病変の位置、重症度、関与臓器を記述する、自動胸部X線画像アノテーションを向上させる再帰的ニューラルカスケードモデルを提案する。RNNが生成する文脈的記述を用いて病変ラベルを段階的に精緻化し、それらを強化したラベルでCNNを再訓練することで、キャプション生成の質が顕著に向上し、GRUベースのRNNを用いた場合、テストセットでBLEU-1スコアが78.5に達した。

ABSTRACT

Despite the recent advances in automatically describing image contents, their applications have been mostly limited to image caption datasets containing natural images (e.g., Flickr 30k, MSCOCO). In this paper, we present a deep learning model to efficiently detect a disease from an image and annotate its contexts (e.g., location, severity and the affected organs). We employ a publicly available radiology dataset of chest x-rays and their reports, and use its image annotations to mine disease names to train convolutional neural networks (CNNs). In doing so, we adopt various regularization techniques to circumvent the large normal-vs-diseased cases bias. Recurrent neural networks (RNNs) are then trained to describe the contexts of a detected disease, based on the deep CNN features. Moreover, we introduce a novel approach to use the weights of the already trained pair of CNN/RNN on the domain-specific image/text dataset, to infer the joint image/text contexts for composite image labeling. Significantly improved image annotation results are demonstrated using the recurrent neural cascade model by taking the joint image/text contexts into account.

研究の動機と目的

医療画像アノテーションにおける文脈情報の不足に起因する課題に対処し、病変ラベルが位置、重症度、関与臓器の詳細を欠いている状況を改善すること。
正常例が病変例に比べて著しく多い胸部X線データセットにおけるデータバイアスを、CNN学習中に正則化技術を適用することで低減すること。
放射線科レポートおよびMeSHアノテーションから得られる統合的画像／テキスト文脈を活用することで、画像キャプション生成性能を向上させること。
RNNが生成する文脈的記述を用いて、繰り返し画像ラベルを精緻化する再帰的カスケードフレームワークを構築し、より正確で詳細なアノテーションを実現すること。
ドメイン特化型のエンドツーエンドディープラーニングモデルを用いて、放射線科医に類似した胸部X線の記述を生成する可能性を実証すること。

提案手法

本手法は、放射線科レポートおよびMeSHアノテーションから抽出した病変ラベルを用いて、クラスの不均衡を緩和する正則化を施したCNNを訓練することで開始する。
事前学習済みのRNNが、CNNの深層特徴から文脈的記述（例：「右上葉に石灰化結節」）を生成し、統合的画像／テキスト文脈ベクトルを形成する。
RNNの出力を用いて、画像を「石灰化結節」という単純なラベルではなく、「左肺底部に小さな石灰化結節」といった、より詳細で文脈豊かな病変ラベルに再ラベル付けする。
CNNは、新しい文脈に配慮したラベルを用いて、低い初期学習率で微調整され、RNNは更新された画像埋め込みから再学習され、より優れたキャプションを生成する。
このプロセスは再帰的カスケードとして形式化される：前回の反復から得られる統合的画像／テキスト文脈ベクトルを用いて、CNNとRNNを繰り返し微調整することで、ラベルの粒度とキャプション品質が向上する。
最終モデルでは、GRUまたはLSTM RNNを用い、生成された系列のクロスエントロピー損失関数を用いる。損失は、前回の反復からの統合的文脈ベクトルに基づいて計算される。

実験結果

リサーチクエスチョン

RQ1放射線科レポートから得られる統合的画像／テキスト文脈は、自動胸部X線アノテーションの正確性と詳細さを向上させることができるか？
RQ2胸部X線データセットにおける正常例と病変例の間のデータ不均衡は、ディープラーニング学習中に効果的に是正可能か？
RQ3RNNが生成する文脈的記述を用いて画像ラベルを段階的に精緻化することは、画像キャプションモデルの性能をどの程度向上させるか？
RQ4CNNとRNNの再帰的カスケードフレームワークは、標準的なCNN-RNNパイプラインを上回り、放射線科医に類似した記述を生成する能力を有するか？
RQ5非構造化された放射線科レポートから、位置や重症度などの細粒度の病変アノテーションを抽出し、それらを用いてより情報豊かな画像分類器を訓練することは可能か？

主な発見

再帰的ニューラルカスケードモデルは、GRUベースのRNNを用いた場合、テストセットでBLEU-1スコア78.5を達成し、統合的画像／テキスト文脈を使用しないベースラインモデルを顕著に上回った。
BLEU-Nスコア（N > 1）が高水準に維持されたことから、生成キャプションが包括的な文脈情報をよりよく捉えていることが示された。
文脈に配慮したラベルで再訓練した後、「石灰化結節」の症例数は139から414に増加し、「不透明度」は65から207に増加した。これは、ラベルの粒度向上を示している。
最初に言及された病変ラベルあたりの平均症例数は83.89に上昇し、標準偏差は86.07となった。これは、文脈抽出によるラベル分布の改善を示している。
高頻度病変症例をk = Round(n/50)としてk-meansクラスタリングでサブグループに分類することで、CNNの再訓練がより正確に行われ、最終ラベル数が17から57に増加した。
GRUを用いた最終モデルは、BLEU-2、BLEU-3、BLEU-4スコアでLSTMを上回ったが、BLEU-1スコアではLSTMがわずかに優れていた。これは、系列生成品質におけるトレードオフを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。