QUICK REVIEW

[論文レビュー] Learning Deep Representations of Medical Images using Siamese CNNs with Application to Content-Based Image Retrieval

Yu-An Chung, Wei‐Hung Weng|arXiv (Cornell University)|Nov 22, 2017

AI in cancer detection参考文献 26被引用数 61

ひとこと要約

本論文は、バイナリ画像対から固定長潜在表現を学習する深い Siamese CNN を提案し、内容ベースの医用画像検索（CBMIR）で、ラベリングが格段に少なくて済む一方で、単一の教師ありCNNと同等の性能を達成します。

ABSTRACT

Deep neural networks have been investigated in learning latent representations of medical images, yet most of the studies limit their approach in a single supervised convolutional neural network (CNN), which usually rely heavily on a large scale annotated dataset for training. To learn image representations with less supervision involved, we propose a deep Siamese CNN (SCNN) architecture that can be trained with only binary image pair information. We evaluated the learned image representations on a task of content-based medical image retrieval using a publicly available multiclass diabetic retinopathy fundus image dataset. The experimental results show that our proposed deep SCNN is comparable to the state-of-the-art single supervised CNN, and requires much less supervision for training.

研究の動機と目的

医用画像表現を学習する際のラベリング作業の削減を動機づける。
バイナリ対の監視に対してエンドツーエンドの深い Siamese CNN（SCNN）アーキテクチャを提案する。
糖尿病性網膜症の眼底画像を用いた CBMIR の評価。
SCNN の表現を単一の教師あり CNN ベースライン（ResNet-50）と比較する。
バイナリ対監督が検索品質と表現品質を保持・改善するかを分析する。

提案手法

二つの同一の ResNet-50 サブネットワークを共有重みで用いて SCNN を構成する。
コントラストロスを用いたバイナリ対ラベルで学習し、類似画像を近づけ、非類似画像を離す（損失ら L = 1(L=0) 1/2 D^2 + 1(L=1) 1/2 max(0, margin - D)^2）
CBMIR タスクのために最後の bottleneck レイヤーから固定長の潜在表現を抽出する。
正規化、224x224 へのリサイズ、クラス不均衡に対応する広範なデータ拡張を用いてデータセットを前処理する。
マルチクラスラベルで訓練された単一の教師あり ResNet-50 ベースラインと比較する。
MAP および MRR を CBMIR 指標として評価する。

実験結果

リサーチクエスチョン

RQ1バイナリ画像対から学習した深い Siamese CNN は、医用画像の CBMIR に適した潜在表現を生成できるか。
RQ2CBMIR における SCNN の性能は、マルチクラスラベルで訓練された完全に教師ありの単一 CNN と比較してどうか。
RQ3バイナリ対で学習した表現は、離散的な多クラス埋め込みより臨床的に意味のある、あるいは連続的な表現を提供するか。
RQ4糖尿病性網膜症の眼底画像データセットにおける標準的な CBMIR 指標（MAP, MRR）に対する SCNN 表現の影響は何か。

主な発見

Layer	MAP	MRR
CNN (third-last)	0.6209	0.7608
CNN (second-last)	0.6369	0.7691
CNN (softmax)	0.6673	0.7745
SCNN (last layer)	0.6492	0.7737

SCNN はバイナリ監督を使用しているにもかかわらず、単一の教師あり CNN ベースラインと比較可能な CBMIR 性能を達成。
SCNN の最終層表現は、単一 CNN の特定の中間層より MAP で上回り、MRR は同等またはほぼ一致。
CBMIR の MAP = 0.6492 および MRR = 0.7737、対して CNN（softmax） MAP = 0.6673 および MRR = 0.7745。
バイナリ対監督は、離散的多クラスの閾値よりも、進行性の糖尿病網膜症とより整合する滑らかな表現をもたらす。
t-SNE の可視化は、Healthy から重度の DR へ段階的に分化する表現を示し、臨床的に意味のある埋め込みを示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。