Skip to main content
QUICK REVIEW

[論文レビュー] Learning Deep Representations of Medical Images using Siamese CNNs with Application to Content-Based Image Retrieval

Yu-An Chung, Wei‐Hung Weng|arXiv (Cornell University)|Nov 22, 2017
AI in cancer detection参考文献 26被引用数 61
ひとこと要約

本論文は、バイナリ画像対から固定長潜在表現を学習する深い Siamese CNN を提案し、内容ベースの医用画像検索(CBMIR)で、ラベリングが格段に少なくて済む一方で、単一の教師ありCNNと同等の性能を達成します。

ABSTRACT

Deep neural networks have been investigated in learning latent representations of medical images, yet most of the studies limit their approach in a single supervised convolutional neural network (CNN), which usually rely heavily on a large scale annotated dataset for training. To learn image representations with less supervision involved, we propose a deep Siamese CNN (SCNN) architecture that can be trained with only binary image pair information. We evaluated the learned image representations on a task of content-based medical image retrieval using a publicly available multiclass diabetic retinopathy fundus image dataset. The experimental results show that our proposed deep SCNN is comparable to the state-of-the-art single supervised CNN, and requires much less supervision for training.

研究の動機と目的

  • 医用画像表現を学習する際のラベリング作業の削減を動機づける。
  • バイナリ対の監視に対してエンドツーエンドの深い Siamese CNN(SCNN)アーキテクチャを提案する。
  • 糖尿病性網膜症の眼底画像を用いた CBMIR の評価。
  • SCNN の表現を単一の教師あり CNN ベースライン(ResNet-50)と比較する。
  • バイナリ対監督が検索品質と表現品質を保持・改善するかを分析する。

提案手法

  • 二つの同一の ResNet-50 サブネットワークを共有重みで用いて SCNN を構成する。
  • コントラストロスを用いたバイナリ対ラベルで学習し、類似画像を近づけ、非類似画像を離す(損失ら L = 1(L=0) 1/2 D^2 + 1(L=1) 1/2 max(0, margin - D)^2)
  • CBMIR タスクのために最後の bottleneck レイヤーから固定長の潜在表現を抽出する。
  • 正規化、224x224 へのリサイズ、クラス不均衡に対応する広範なデータ拡張を用いてデータセットを前処理する。
  • マルチクラスラベルで訓練された単一の教師あり ResNet-50 ベースラインと比較する。
  • MAP および MRR を CBMIR 指標として評価する。

実験結果

リサーチクエスチョン

  • RQ1バイナリ画像対から学習した深い Siamese CNN は、医用画像の CBMIR に適した潜在表現を生成できるか。
  • RQ2CBMIR における SCNN の性能は、マルチクラスラベルで訓練された完全に教師ありの単一 CNN と比較してどうか。
  • RQ3バイナリ対で学習した表現は、離散的な多クラス埋め込みより臨床的に意味のある、あるいは連続的な表現を提供するか。
  • RQ4糖尿病性網膜症の眼底画像データセットにおける標準的な CBMIR 指標(MAP, MRR)に対する SCNN 表現の影響は何か。

主な発見

LayerMAPMRR
CNN (third-last)0.62090.7608
CNN (second-last)0.63690.7691
CNN (softmax)0.66730.7745
SCNN (last layer)0.64920.7737
  • SCNN はバイナリ監督を使用しているにもかかわらず、単一の教師あり CNN ベースラインと比較可能な CBMIR 性能を達成。
  • SCNN の最終層表現は、単一 CNN の特定の中間層より MAP で上回り、MRR は同等またはほぼ一致。
  • CBMIR の MAP = 0.6492 および MRR = 0.7737、対して CNN(softmax) MAP = 0.6673 および MRR = 0.7745。
  • バイナリ対監督は、離散的多クラスの閾値よりも、進行性の糖尿病網膜症とより整合する滑らかな表現をもたらす。
  • t-SNE の可視化は、Healthy から重度の DR へ段階的に分化する表現を示し、臨床的に意味のある埋め込みを示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。