QUICK REVIEW

[論文レビュー] U-Net: Convolutional Networks for Biomedical Image Segmentation

Olaf Ronneberger|arXiv (Cornell University)|May 18, 2015

Advanced Neural Network Applications参考文献 13被引用数 102

ひとこと要約

この論文は、非常に限られたアノテート済みトレーニングデータからの正確な生物学的画像セグメンテーションを可能にする、U字型のエンコーダデコーダ構造を有する完全畳み込みニューラルネットワークアーキテクチャであるU-Netを紹介する。エラスティック変形による広範なデータ拡張と、重ね合わさった細胞を分離するための重み付き損失関数を組み合わせることで、電子顕微鏡によるニューロンセグメンテーションおよび光顕微鏡による細胞トラッキングの挑戦において、先行手法を大きく上回る最先端の性能を達成している。GPU上で1枚の512×512画像あたり1秒未塔で実行可能である。

ABSTRACT

There is large consent that successful training of deep networks requires many thousand annotated training samples. In this paper, we present a network and training strategy that relies on the strong use of data augmentation to use the available annotated samples more efficiently. The architecture consists of a contracting path to capture context and a symmetric expanding path that enables precise localization. We show that such a network can be trained end-to-end from very few images and outperforms the prior best method (a sliding-window convolutional network) on the ISBI challenge for segmentation of neuronal structures in electron microscopic stacks. Using the same network trained on transmitted light microscopy images (phase contrast and DIC) we won the ISBI cell tracking challenge 2015 in these categories by a large margin. Moreover, the network is fast. Segmentation of a 512x512 image takes less than a second on a recent GPU. The full implementation (based on Caffe) and the trained networks are available at http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net .

研究の動機と目的

非常に少ないアノテート済みトレーニングデータで高精度なセマンティックセグメンテーションを実現する深層学習アーキテクチャの開発。
スライディングウィンドウアプローチの限界、特に処理速度の遅さと局所化精度と文脈理解のトレードオフを克服すること。
特にエラスティック変形を用いた積極的なデータ拡張を活用することで、小規模データセットでもエンドツーエンドの訓練を可能にする。
境界領域に高い重みを割り当てる重み付き損失関数を用いることで、重なった細胞のセグメンテーションを改善すること。
重複タイリング推論戦略を用いて、任意に大きな画像のシームレスなセグメンテーションを可能にするモデルの設計。

提案手法

U-Netアーキテクチャは、繰り返し畳み込みとマックスプーリングを経る収縮（エンコーダ）パスと、転置畳み込み（デコンボリューション）によるアップサンプリングを行う対称的な拡張（デコーダ）パスから構成される。
スコアマップの高分解能特徴量をアップサンプリングされた特徴量と結合するスキップ接続を用いることで、正確な局所化に必要な空間情報を保持する。
ネットワークは有効畳み込み（valid convolutions）のみを用い、全結合層を一切含まないため、出力セグメンテーションマップが入力と空間的に整合しており、フル解像度の推論をサポートする。
重複するタイルを処理し、予測を統合することで、大規模な画像のセグメンテーションを可能にする重複タイリング戦略を採用。欠落した文脈はミラー補間によって外挿される。
トレーニング中にエラスティック変形による広範なデータ拡張を適用し、現実的な組織のばらつきを模倣することで一般化性能を向上させ、追加のアノテート済みデータを必要としない。
背景ピクセル（重なった細胞の間）に高い損失重みを割り当てる重み付き交差エントロピー損失関数を用いることで、分離精度を向上させる。

実験結果

リサーチクエスチョン

RQ1非常に少ないアノテート済み画像でトレーニングされた完全畳み込みネットワークが、生物学的画像セグメンテーションで最先端の性能を達成できるか？
RQ2生物学的画像のセマンティックセグメンテーションにおいて、文脈的理解と局所化精度のトレードオフを効果的に解消できるか？
RQ3エラスティック変形によるデータ拡張が、低データレジームにおいてモデルの一般化性能をどの程度向上できるか？
RQ4同一アーキテクチャが、電子顕微鏡および位相差/DIC光顕微鏡などの多様な生物学的画像モodalitiesに一般化可能か？
RQ5スキップ接続と重み付き損失の組み合わせが、セグメンテーションタスクにおける重なった細胞の分離という課題に対して、どの程度効果的か？

主な発見

ISBI EMセグメンテーションチャレンジにおいて、U-Netはワープエラー0.000353を達成し、先行最良手法（0.000420）を顕著に上回り、10件の提出の中での1位となった。
EMチャレンジにおいてU-Netはランダム誤差（Rand error）0.0382を達成し、2番目に良い手法を大きく上回り、一部の指標では人間によるアノテーション結果をも上回った。
ISBI 2015セルトラッキングチャレンジにおいて、U-NetはPhC-U373データセットで平均IOU 92.03%を達成し、2番目に良い手法（83%）を大きく上回った。
DIC-HeLaデータセットでは、U-NetはIOU 77.56%を達成し、2番目に良い手法（46%）を顕著に上回った。
最近のGPU上で512×512の画像を1秒未塔でセグメンテーション可能であり、高い推論速度を示した。
Caffeベースの完全な実装およびトレーニング済みモデルは公開されており、生物学的画像処理タスクにおける広範な再利用と適応が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。