QUICK REVIEW

[論文レビュー] End-to-End Deep Convolutional Active Contours for Image Segmentation

Ali Hatamizadeh, Debleena Sengupta|arXiv (Cornell University)|Jan 1, 2019

Advanced Neural Network Applications参考文献 23被引用数 11

ひとこと要約

本論文は、微分可能なEuler形式アクティブな輪郭と畳み込みニューラルネットワーク（CNN）を統合するエンド・ツー・エンドで学習可能な画像セグメンテーションフレームワーク、Deep Convolutional Active Contours（DCAC）を提案する。CNNバックボーンを用いて画素単位のパラメータマップ（λ1, λ2）と一般化距離変換を学習することで、ユーザーによる初期化が不要で、バックプロパゲーションに準拠した輪郭の自己進化を可能にする。この手法は、空中写真における建物インスタンスセグメンテーションで最先端の性能を達成し、VaihingenおよびBing Hutsデータセットにおいて、DSACなどの先行手法を大幅に上回っている。

ABSTRACT

The Active Contour Model (ACM) is a standard image analysis technique whose numerous variants have attracted an enormous amount of research attention across multiple fields. Incorrectly, however, the ACM's differential-equation-based formulation and prototypical dependence on user initialization have been regarded as being largely incompatible with the recently popular deep learning approaches to image segmentation. This paper introduces the first tight unification of these two paradigms. In particular, we devise Deep Convolutional Active Contours (DCAC), a truly end-to-end trainable image segmentation framework comprising a Convolutional Neural Network (CNN) and an ACM with learnable parameters. The ACM's Eulerian energy functional includes per-pixel parameter maps predicted by the backbone CNN, which also initializes the ACM. Importantly, both the CNN and ACM components are fully implemented in TensorFlow, and the entire DCAC architecture is end-to-end automatically differentiable and backpropagation trainable without user intervention. As a challenging test case, we tackle the problem of building instance segmentation in aerial images and evaluate DCAC on two publicly available datasets, Vaihingen and Bing Huts. Our reseults demonstrate that, for building segmentation, the DCAC establishes a new state-of-the-art performance by a wide margin.

研究の動機と目的

ディープラーニングとアクティブな輪郭モデルの間のギャップを埋めるために、真正のエンド・ツー・エンドで微分可能なフレームワークを構築すること。
アクティブな輪郭の初期化およびパラメータチューニングにおけるユーザーの介入を排除し、完全に自動化されたセグメンテーションを実現すること。
特に空中画像における複雑で不均一なオブジェクト（例：建物）の境界明確化を向上させること。
挑戦的な空中画像インスタンスセグメンテーションベンチマークにおいて、最先端の性能を示すこと。

提案手法

フレームワークは、CNNバックボーンと微分可能なEuler形式アクティブな輪郭モデルを統合し、CNNが画素単位のパラメータマップ（λ1, λ2）および初期化用の一般化距離変換を予測する。
アクティブな輪郭は、完全に微分可能で、TensorFlowを用いたバックプロパゲーションによる学習が可能な局所的ペナルティ項を備えたエネルギー関数に従って進化する。
ゼロレベルセットは、計算的に高価で微分不可能な操作を回避するため、学習された距離変換を用いて初期化される。
全アーキテクチャは、事前学習なしにスクラッチからエンド・ツー・エンドで学習可能であり、CNNとACM部の共同最適化が可能である。
セグメンテーション精度、特に境界の正確性を向上させるために、トレーニング中にソフトDice損失が使用される。
本手法は、1回に1つのオブジェクトしか処理できないパラメトリックなACMとは異なり、複数のオブジェクトインスタンスを同時にセグメンテーション可能である。

実験結果

リサーチクエスチョン

RQ1ディープラーニングフレームワークを、エンド・ツー・エンドでバックプロパゲーションに準拠した形でアクティブな輪郭と完全に統合できるか？
RQ2アクティブな輪郭エネルギー関数に画素単位で学習可能なパラメータを導入することで、定数パラメータと比較して境界明確化が向上するか？
RQ3CNNがユーザー入力なしにアクティブな輪郭を自動で初期化できるか？また、そのような初期化が収束性および精度を向上させるか？
RQ4提案されたフレームワークは、空中画像におけるインスタンスセグメンテーションで、既存の最先端手法を上回る性能を示すか？
RQ5本フレームワークは、建物セグメンテーションにおける複雑なトポロジーの変化やエッジケースを処理できるか？

主な発見

DCACは、VaihingenデータセットでmIoU 0.929、Bing Hutsデータセットで0.860という新たな最先端の性能を達成し、DSAC（それぞれ0.840および0.650）を大幅に上回った。
学習可能なλ1(x,y)およびλ2(x,y)マップを備えたDCACは、VaihingenでBoundFスコア0.819、Bing Hutsで0.534を達成し、優れた境界精度を示した。
定数λの定式化でさえ、U-Net や ResNet といった標準的なCNNを上回るが、空間的に変化するパラメータを備えた完全なDCACは、さらに大きな性能向上を達成した。
DCACは複数の建物を同時にセグメンテーションに成功したのに対し、DSACは1インスタンスずつしか処理できない。
可視化比較では、DCACは特に鋭いエッジや低コントラスト領域でより正確で詳細な境界を生成したのに対し、DSACは過剰にセグメンテーションする傾向にあった。
初期化に学習された距離変換を使用することで、収束が速くなり、局所的最小値を避けることができた。これは、円形初期化とは対照的であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。