QUICK REVIEW

[論文レビュー] Efficient piecewise training of deep structured models for semantic segmentation

Guosheng Lin, Chunhua Shen|arXiv (Cornell University)|Apr 4, 2015

Advanced Neural Network Applications参考文献 42被引用数 83

ひとこと要約

この論文は、畳み込みニューラルネットワーク（CNN）と条件付きランダムフィールド（CRF）を組み合わせた深層構造モデルを提案し、複雑な空間的コンテキストをモデル化することで、意味的セグメンテーションを向上させます。パッチ同士のコンテキストをCNNベースのペairワイズポテンシャルでモデル化し、エンドツーエンド学習を効率化するためのピecewise学習を採用することで、マルチスケール入力とスライディングピラミッドプーリングによる背景コンテキストの捉え込みを実現し、PASCAL VOC 2012で78.0 mIoUの新たなSOTAを達成しました。

ABSTRACT

Recent advances in semantic image segmentation have mostly been achieved by training deep convolutional neural networks (CNNs). We show how to improve semantic segmentation through the use of contextual information; specifically, we explore `patch-patch' context between image regions, and `patch-background' context. For learning from the patch-patch context, we formulate Conditional Random Fields (CRFs) with CNN-based pairwise potential functions to capture semantic correlations between neighboring patches. Efficient piecewise training of the proposed deep structured model is then applied to avoid repeated expensive CRF inference for back propagation. For capturing the patch-background context, we show that a network design with traditional multi-scale image input and sliding pyramid pooling is effective for improving performance. Our experimental results set new state-of-the-art performance on a number of popular semantic segmentation datasets, including NYUDv2, PASCAL VOC 2012, PASCAL-Context, and SIFT-flow. In particular, we achieve an intersection-over-union score of 78.0 on the challenging PASCAL VOC 2012 dataset.

研究の動機と目的

画像領域間の文脈的関係および背景との関係を明示的にモデル化することで、意味的セグメンテーションを向上させること。
深層特徴を用いたCRFベースのモデルにおける共同学習の計算非効率性を解決すること。
深層ニューラルネットワークを用いてパッチ同士およびパッチ-背景の構造的コンテキストをモデル化することで、性能を向上させること。
PASCAL VOC 2012、NYUDv2、PASCAL-Context、SIFT-flowを含むベンチマークデータセットでSOTAの結果を達成すること。

提案手法

隣接する画像パッチ間の意味的適合性をモデル化するため、CRFにCNNベースのペアワイズポテンシャル関数を定式化する。
バックプロパゲーション中に繰り返し高価な推論を回避するため、CRFのピースワイズ学習を適用し、効率的なエンドツーエンド学習を可能にする。
マルチスケール画像入力とスライディングピラミッドプールを用いて、豊富なパッチ-背景コンテキストを捉える。
中間特徴マップにリファインメントモジュールを適用し、境界の詳細と解像度を向上させる。
最終的な高解像度予測を得るために、境界リファインメントを後処理として実施する。
複数のネットワーク層からのリファインド特徴と粗いCRF推論予測を組み合わせることで、精度を向上させる。

実験結果

リサーチクエスチョン

RQ1CRFにおけるCNNベースのペアワイズポテンシャルは、画像パッチ間の意味的適合性を効果的にモデル化できるか？
RQ2CRFのピースワイズ学習により、繰り返し推論を回避しながら、深層構造モデルの効率的共同学習が可能になるか？
RQ3マルチスケールおよびピラミッドプールド特徴を組み込むことで、意味的セグメンテーションにおける背景コンテキストモデリングがどのように向上するか？
RQ4提案手法は、PASCAL VOC 2012のような挑戦的なベンチマークで、どの程度性能が向上するか？

主な発見

本手法は、PASCAL VOC 2012データセットで78.0の新しいSOTA平均交差率（mIoU）を達成した。
VOC 2012の訓練データのみを用いた場合、75.3 mIoUを達成し、同設定で過去のすべての手法を上回った。
追加のCOCOデータを用いることで、mIoUは77.2に上昇し、大規模事前学習の有効性を示した。
PASCAL-Context（60クラス）では43.3 mIoUを達成し、このデータセットで報告された最高の結果となった。
SIFT-flowデータセット（33クラス）では44.9 mIoUを達成し、すべての先行手法を上回った。
VOC 2012データのみで学習した場合、20クラス中18クラスで2番目に良い手法を上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。