QUICK REVIEW

[論文レビュー] Parallel Multi-Dimensional LSTM, With Application to Fast Biomedical Volumetric Image Segmentation

Marijn Stollenga, Wonmin Byeon|arXiv (Cornell University)|Jun 24, 2015

Advanced Neural Network Applications参考文献 31被引用数 153

ひとこと要約

本稿では、GPUの並列処理を効率的に行えるように、LSTM計算をピラミッド型でグリッドに整列させたトポロジーに再構成した、新しい並列処理可能な多次元LSTMであるPyraMiD-LSTMを紹介する。従来のMD-LSTMとは異なり、逐次的依存性とGPUの低効率利用という問題を抱えるが、PyraMiD-LSTMは3次元バイオメディカル画像セグメンテーションにおいて最先端の性能を達成し、MRBrainS13データセットでは新たなSOTA結果を樹立し、EM-ISBI12でも競争力ある性能を示した。

ABSTRACT

Convolutional Neural Networks (CNNs) can be shifted across 2D images or 3D videos to segment them. They have a fixed input size and typically perceive only small local contexts of the pixels to be classified as foreground or background. In contrast, Multi-Dimensional Recurrent NNs (MD-RNNs) can perceive the entire spatio-temporal context of each pixel in a few sweeps through all pixels, especially when the RNN is a Long Short-Term Memory (LSTM). Despite these theoretical advantages, however, unlike CNNs, previous MD-LSTM variants were hard to parallelize on GPUs. Here we re-arrange the traditional cuboid order of computations in MD-LSTM in pyramidal fashion. The resulting PyraMiD-LSTM is easy to parallelize, especially for 3D data such as stacks of brain slice images. PyraMiD-LSTM achieved best known pixel-wise brain image segmentation results on MRBrainS13 (and competitive results on EM-ISBI12).

研究の動機と目的

従来の多次元LSTM（MD-LSTM）ネットワークが、GPUの並列処理が不十分であるため、大規模な3次元バイオメディカル画像セグメンテーションへの応用が制限されているという問題を克服すること。
MD-LSTMの計算トポロジーを再考することで、MRIや電子顕微鏡のスタックなどの3次元ボリュームデータに対する効率的でスケーラブルな推論を可能にすること。
再帰的アーキテクチャが完全な空間的・時間的文脈を捉える能力を持つことを活かし、MRBrainS13 や EM-ISBI12 といった困難なベンチマークで最先端のセグメンテーション性能を達成すること。
MD-LSTMが現代のGPUハードウェアに適切に並列化された場合、畳み込みネットワークを上回る性能を示す可能性があることを実証すること。

提案手法

標準的なMD-LSTMの計算順序を、ピラミッド型トポロジーに再構成し、各層が3次元ボリュームの2次元スライスを処理する際、行内のすべてのピクセルを完全に並列化できるようにする。
標準的な45°スキャントポロジーを回転させることで生じる文脈のギャップを解消するために、追加の対角接続を導入した変更された接続方式を採用する。
ピラミッドスキャンを拡張または重複する畳み込みの一種とみなすことにより、GPU上で効率的なCUDAベースの畳み込み演算を活用し、高スルーレットな計算を実現する。
3次元データに同じアーキテクチャを適用する際は、全3次元ボクセル位置にわたってピラミッドスキャンを拡張し、8方向のスキャンを用いて完全なボリュームコンテキストを捉える。
入力ゲート、忘れゲート、出力ゲートおよびセル状態を含む標準的なLSTM式を採用するが、計算の順序を再編成することで、行または列全体を独立して処理できるようにする。
ピラミッド構造により、3×3より大きな有効受容 field（より大きな有効受容 field）から重複する、冗長なコンテキスト窓を取得することで、耐性および性能が向上する。

実験結果

リサーチクエスチョン

RQ1再構築されたMD-LSTMトポロジーは、再帰的ネットワークの完全なコンテキストモデリング能力を保持しつつ、効率的なGPU並列処理を可能にするか？
RQ2提案されたPyraMiD-LSTMは、既存のCNNおよびMD-LSTMベースラインと比較して、3次元バイオメディカル画像データセットにおける優れたセグメンテーション精度を達成するか？
RQ3ピラミッド型計算順序は、3次元ボリュームセグメンテーションタスクにおける計算ボトルネックを低減し、推論速度を向上させるか？
RQ4PyraMiD-LSTMにおける重複する多方向コンテキストは、セグメンテーションの耐性および一般化性能をどの程度向上させるか？
RQ5提案されたアーキテクチャは、現実世界の高解像度3次元医療画像応用にスケーラブルかつ効果的か？

主な発見

PyraMiD-LSTMはMRBrainS13ベンチマークで、DICE、修正ヘウスドルフ距離、ボリューム差といったすべての指標において、これまでに得られた最高の結果を達成し、新たなSOTA性能を樹立した。
EM-ISBI12データセットでは、後処理を行わない手法の中で最も低いランダム誤差を記録し、他の優れた手法を上回った。
MRBrainS13データセットでは、灰色 matter で84.82%、白質で88.33%、脳脊髄液で83.72%のDICEスコアを達成し、最終順位で他のすべてのチームを上回った。
ドロップアウト正則化によってモデル性能が向上しなかった。むしろドロップアウトは訓練時間を延長するだけで性能向上が得られず、アーキテクチャがすでに高い耐性を持っていることを示唆している。
ピラミッド型トポロジーにより、効率的なGPU並列処理が可能になり、計算ボトルネックが低減され、標準的なMD-LSTMと比較して3次元ボリュームデータの推論が高速化された。
本手法は、現代のハードウェアに適切に並列化された再帰的ネットワークが、完全なコンテキスト認識能力を持つ場合、セグメンテーションタスクでCNNを上回ることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。