QUICK REVIEW

[論文レビュー] Combining Fully Convolutional and Recurrent Neural Networks for 3D Biomedical Image Segmentation

Jianxu Chen, Lin Yang|arXiv (Cornell University)|Sep 5, 2016

Cell Image Analysis Techniques参考文献 19被引用数 220

ひとこと要約

k-U-Net FCNを用いたスライス内特徴抽出とBi-Directional Convolutional LSTM（BDC-LSTM）を組み合わせた2成分フレームワークを導入し、スライス間の3D文脈を捉え、特に異方性データにおける3D生物医用画像分割を改善する。

ABSTRACT

Segmentation of 3D images is a fundamental problem in biomedical image analysis. Deep learning (DL) approaches have achieved state-of-the-art segmentation perfor- mance. To exploit the 3D contexts using neural networks, known DL segmentation methods, including 3D convolution, 2D convolution on planes orthogonal to 2D image slices, and LSTM in multiple directions, all suffer incompatibility with the highly anisotropic dimensions in common 3D biomedical images. In this paper, we propose a new DL framework for 3D image segmentation, based on a com- bination of a fully convolutional network (FCN) and a recurrent neural network (RNN), which are responsible for exploiting the intra-slice and inter-slice contexts, respectively. To our best knowledge, this is the first DL framework for 3D image segmentation that explicitly leverages 3D image anisotropism. Evaluating using a dataset from the ISBI Neuronal Structure Segmentation Challenge and in-house image stacks for 3D fungus segmentation, our approach achieves promising results comparing to the known DL-based 3D segmentation approaches.

研究の動機と目的

高度に異方性のある生体医療画像における3D文脈の活用という課題に対応する。
スライス内の特徴抽出とスライス間の文脈モデリングを分離するフレームワークを提案する。
2DのマルチスケールFCNと積み重ねたBDC-LSTMの両方を活用して3D文脈を捉え、3D分割を改善する。

提案手法

2つの成分アーキテクチャを提案する：k U-Net（マルチスケール2D FCN）をスライス内の特徴抽出に、BDC-LSTM（Bi-Directional Convolutional LSTM）をスライス間の3D文脈統合に用いる。
k U-Netを導入する：情報が粗いスケールから細いスケールへ伝搬する、逐次的に粗い画像スケールで動作するサブモジュールU-Netsの系列。
BDC-LSTMを導入する：反対方向のz方向で動作する2つのCLSTM層を用い、文脈を結合して3D特徴を形成し、深い積み重ねや最大プーリング・デコンボリューションの統合によって文脈特徴の階層を構築する可能性。
k U-NetとBDC-LSTMを組み合わせる：まずスライスごとに2D特徴マップを抽出し、それらのマップ列をBDC-LSTMに入力して3D分割確率マップを生成する。
訓練戦略にはエンドツーエンドまたはデカップルド訓練を含み、データ拡張、ドロップアウト、境界や関心領域を強調する重み付きクロスエントロピー損失を用いる。

実験結果

リサーチクエスチョン

RQ1多スケール2D FCN（k U-Net）とスライス間RNN（BDC-LSTM）の組み合わせは、既存の3D CNNやRNNアプローチよりも異方性のある3D文脈をより効果的に活用できるか。
RQ2スライス内特徴抽出とスライス間文脈モデリングを分離することは、異方性のある3D生体医用データセットで分割精度を向上させるか。
RQ3提案アーキテクチャは、Pyramid-LSTMや他の3D分割手法と、異なるz分解能を持つデータセットでどのように比較されるか。

主な発見

Method	V_rand	V_info	Pixel Error
Pyramid-LSTM pyramid	0.9677	0.9829	N/A
U-Net unet	0.9728	0.9866	0.0263
Tri-Planar triplane	0.8462	0.9180	0.0375
3D Conv 3Dconv	0.8178	0.9125	0.0630
Ours (FCN only)	0.9749	0.9869	0.0242
Ours (FCN+simple RNN)	0.9742	0.9869	0.0241
Ours (FCN+deep RNN)	0.9753	0.9870	0.0215

提案されたFCN+RNNフレームワークは、2つの異なるデータセットにおいて、最先端の3D DL手法と比較して競争力のある、あるいは優位な分割指標を達成する。
k U-Netは、多スケールのスライス内情報を活用することで標準のU-Netを上回る。
深いBDC-LSTMをk U-Netと組み合わせた場合、検討された構成の中で最良の結果をもたらす。
ISBIニューロンデータセットでは、FCN+深層RNNを用いた方法が最も高いV_rand(0.9753)とV_info(0.9870)を達成し、Pixel Error(0.0215)を最小に抑えた。
社内の3D真菌データセットでは、FCN+深層RNNがベースラインを上回り、V_rand 0.9753、V_info 0.9870、Pixel Error 0.0215（報告方法中で最高）を達成した。
同じフレームワーク内で再実装した場合、Pyramid-LSTMと比べてGPUメモリの効率性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。