QUICK REVIEW

[論文レビュー] Semantic Image Segmentation with Task-Specific Edge Detection Using CNNs and a Discriminatively Trained Domain Transform

Liang-Chieh Chen, Jonathan T. Barron|arXiv (Cornell University)|Nov 10, 2015

Advanced Neural Network Applications参考文献 40被引用数 35

ひとこと要約

この論文では、エンド・トゥ・エンド学習を用いたドメイン変換（DT）フィルタを用いたタスク特化型エッジ検出手法を提案し、意味的画像セグメンテーションの性能を向上させている。画像勾配ではなく中間CNN特徴量からエッジマップを学習することで、完全結合CRFと同等の精度を達成しつつ、推論速度が著しく向上（最大10倍高速化）する。また、BSDS500でも競争力あるエッジ検出結果を達成している。

ABSTRACT

Deep convolutional neural networks (CNNs) are the backbone of state-of-art semantic image segmentation systems. Recent work has shown that complementing CNNs with fully-connected conditional random fields (CRFs) can significantly enhance their object localization accuracy, yet dense CRF inference is computationally expensive. We propose replacing the fully-connected CRF with domain transform (DT), a modern edge-preserving filtering method in which the amount of smoothing is controlled by a reference edge map. Domain transform filtering is several times faster than dense CRF inference and we show that it yields comparable semantic segmentation results, accurately capturing object boundaries. Importantly, our formulation allows learning the reference edge map from intermediate CNN features instead of using the image gradient magnitude as in standard DT filtering. This produces task-specific edges in an end-to-end trainable system optimizing the target semantic segmentation quality.

研究の動機と目的

意味的画像セグメンテーションのオブジェクト境界近辺の精度を向上させつつ、密なCRF推論の計算コストを回避する。
CNNベースのセグメンテーションモデルにおける完全結合CRF後処理の高い計算コストを緩和する。
中間CNN特徴量からタスク特化型エッジを学習し、エンド・トゥ・エンドで訓練可能なフレームワークでセグメンテーション品質を向上させる。
セグメンテーション性能を維持しつつ、CRFにおける高価なバイリテラルフィルタリングをより効率的なドメイン変換に置き換える。
共同訓練されたエッジ検出が、ベンチマークデータセット上でセグメンテーションとエッジ検出の両方の性能を向上させることを示す。

提案手法

CNNベースのセグメンテーションにおける完全結合CRF後処理ステップを、エッジに敏感な平滑化のためのドメイン変換（DT）フィルタに置き換える。
画像勾配の大きさに依存するのではなく、中間CNN特徴量を学習済みの参照エッジマップとして使用する。
バックプロパゲーションによるエンド・トゥ・エンド学習により、セグメンテーション品質を最適化することで、エッジ検出器をタスク特化型にしている。
ドメイン変換をゲーテッドリカレントニューラルネットワーク（GRNN）として定式化し、RNNとの共有知見を活用するとともに、効率的な実装を可能にする。
学習済みエッジマップを用いて、粗い意味的セグメンテーションスコアにDTフィルタを適用し、境界に敏感な予測を精緻化する。
DTモジュールを統合したCNNアーキテクチャに統合し、同時にセグメンテーションスコアとエッジマップを出力する。

実験結果

リサーチクエスチョン

RQ1完全結合CRF後処理を置き換えるドメイン変換フィルタは、推論時間を著しく短縮しつつも、セグメンテーション精度を維持できるか？
RQ2中間CNN特徴量からタスク特化型エッジマップを学習することで、画像勾配を使用する場合と比較してセグメンテーション性能が向上するか？
RQ3ドメイン変換がセグメンテーションネットワークの一部としてエンド・トゥ・エンドで学習可能であり、エッジ検出とセグメンテーションの両方を同時に最適化できるか？
RQ4提案手法は、意味的セグメンテーションとエッジ検出の両方のベンチマークで競争力ある性能を達成できるか？
RQ5従来のバイリテラルフィルタリングや密なCRF推論と比較して、ドメイン変換による計算効率の向上はどの程度か？

主な発見

ImageNetおよびMS-COCOで学習したDT-EdgeNetは、PASCAL VOC 2012テストセットで71.7のmIOUを達成し、DeepLab-CRF-LargeFOV（70.3 mIOU）を上回り、より高価なCRFベースの手法に近い性能を示した。
MS-COCOでの追加事前学習を施した後、DT-EdgeNet + DenseCRFは73.6 mIOUを達成し、最先端のDeepLab-CRF-Attention-DT（76.3 mIOU）に非常に近い性能を示したが、CRFベースの推論よりも著しく高速であった。
ドメイン変換は、密なCRF推論に比べて最大10倍高速であり、最小限の遅延でリアルタイムまたはニアリアルタイムのセグメンテーションを実現可能である。
学習済みエッジ検出器（EdgeNet）は、BSDS500エッジ検出ベンチマークで競争力ある性能を示し、タスク特化型エッジ学習がセグメンテーションとエッジ検出の両方を向上させることを裏付けた。
DT-EdgeNetは高い境界精度を維持しており、定性的な比較でもオブジェクトの輪郭にうまく沿ったセグメンテーション結果を生成している。
ドメイン変換は数学的にゲーテッドリカレントネットワークと同等であり、その効率性と挙動に関する理論的・実用的知見を提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。