Skip to main content
QUICK REVIEW

[論文レビュー] Convolutional CRFs for Semantic Segmentation

Marvin Teichmann, Roberto Cipolla|arXiv (Cornell University)|May 12, 2018
Generative Adversarial Networks and Image Synthesis被引用数 51
ひとこと要約

この論文は、条件付き独立性仮定の下で完全結合CRFを畝込みに再定式化することにより、高速で微分可能かつ構造的予測フレームワークを提案する。従来の順列格子近似を微分可能な畝込みに置き換えることで、推論と学習を2桁速くし、すべてのパラメータ(ガウス特徴量を含む)に対するエンドツーエンドのバックプロパゲーションを可能にした。Pascal VOCでmIoU 72.18%という最先端の性能を達成した。

ABSTRACT

For the challenging semantic image segmentation task the best performing models have traditionally combined the structured modelling capabilities of Conditional Random Fields (CRFs) with the feature extraction power of CNNs. In more recent works however, CRF post-processing has fallen out of favour. We argue that this is mainly due to the slow training and inference speeds of CRFs, as well as the difficulty of learning the internal CRF parameters. To overcome both issues we propose to add the assumption of conditional independence to the framework of fully-connected CRFs. This allows us to reformulate the inference in terms of convolutions, which can be implemented highly efficiently on GPUs. Doing so speeds up inference and training by two orders of magnitude. All parameters of the convolutional CRFs can easily be optimized using backpropagation. Towards the goal of facilitating further CRF research we have made our implementations publicly available.

研究の動機と目的

  • セマンティックセグメンテーションにおける従来の完全結合CRFの遅い学習および推論速度を改善すること。
  • 特にペairワイズ特徴量の学習が困難であるCRFパラメータの学習を、エンドツーエンドのディープラーニングパイプラインで克服すること。
  • バックプロパゲーションによる効率的かつ学習可能な構造的CRFモデルを現代のディープラーニングに復活させること。
  • 勾配ベース最適化を用いてCRF内でのガウスペアワイズ特徴量の学習を可能にすること。
  • 高精度なフル解像度予測をサポートする、実用的で高速なCRF後処理の代替手段を提供すること。

提案手法

  • 完全結合CRFに条件付き独立性仮定を導入し、メッセージ伝達を簡素化し、畝込み実装を可能にする。
  • CRFのメッセージ伝達を空間的に共有された畝込みに再定式化し、GPUによる効率的加速を実現する。
  • 微分可能な畝込みを用いて順列格子近似を置き換え、推論および学習時間を著しく短縮する。
  • すべてのCRFパラメータ(ガウスカーネル特徴量を含む)をバックプロパゲーションを用いてエンドツーエンドで学習する。
  • 2つの学習プロトコルを実装する:分離型(保持されたデータ上でCRFパラメータを学習)とエンドツーエンド型(単一のニューラルネットワークと共同で学習)。
  • 単一のCNN出力とConvCRFを組み合わせることで、構造的精錬を実現し、セマンティックセグメンテーションに応用する。

実験結果

リサーチクエスチョン

  • RQ1完全結合CRFの計算ボトルネックは、そのモデル強度を保ちつつ克服可能か?
  • RQ2CRFにおけるガウスペアワイズ特徴量は、バックプロパゲーションを用いてエンドツーエンドで効果的に学習可能か?
  • RQ3順列格子近似を畝込みに置き換えることで、精度を損なわず学習および推論速度が著しく向上するか?
  • RQ4ConvCRFはPascal VOCのような標準ベンチマークで最先端の性能を達成できるか?
  • RQ5深層畳み込みニューラルネットワークと組み合わせた場合、CRFパラメータのエンドツーエンド学習は可能で有益か?

主な発見

  • ConvCRFは従来の完全結合CRFと比較して、推論および学習速度が2桁速く、推論時間は10ms未満である。
  • 本手法により、ガウスペアワイズ特徴量を含むすべてのCRFパラメータに対するエンドツーエンドバックプロパゲーションが可能となり、従来は最適化が困難であった。
  • Pascal VOC 2012の検証セットにおいて、ConvCRFは平均交差率(mIoU)72.18%を達成し、CRFasRNN(69.6%)およびDeepLab-CRFを上回った。
  • 保持された学習データのサブセットを用いてCRFパラメータをキャリブレーションする分離型学習プロトコルが、特に単一の信頼度推定との整合性が高いため、最も優れた結果をもたらした。
  • エポック100からエンドツーエンド学習を開始することで、ベースラインモデルで見られる性能の崩壊を防ぎ、より高い検証mIoUを達成した。これは、早期の共同最適化の重要性を示している。
  • ConvCRFの正確なメッセージ伝達は、近似手法よりもわずかに精度を向上させ、正確な計算の利点を裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。