Skip to main content
QUICK REVIEW

[論文レビュー] Distance transform regression for spatially-aware deep semantic segmentation

Nicolas Audebert, Alexandre Boulch|arXiv (Cornell University)|Sep 4, 2019
Domain Adaptation and Few-Shot Learning参考文献 52被引用数 44
ひとこと要約

論文は距離変換回帰損失をセマンティックセグメンテーションの多タスク正則化として導入し、ネットワークにクラスラベルに加えて距離マップを予測させ、よりシャープで一貫性のあるセグメンテーションを生成する。

ABSTRACT

Understanding visual scenes relies more and more on dense pixel-wise\nclassification obtained via deep fully convolutional neural networks. However,\ndue to the nature of the networks, predictions often suffer from blurry\nboundaries and ill-segmented shapes, fueling the need for post-processing. This\nwork introduces a new semantic segmentation regularization based on the\nregression of a distance transform. After computing the distance transform on\nthe label masks, we train a FCN in a multi-task setting in both discrete and\ncontinuous spaces by learning jointly classification and distance regression.\nThis requires almost no modification of the network structure and adds a very\nlow overhead to the training process. Learning to approximate the distance\ntransform back-propagates spatial cues that implicitly regularizes the\nsegmentation. We validate this technique with several architectures on various\ndatasets, and we show significant improvements compared to competitive\nbaselines.\n

研究の動機と目的

  • FCNベースのセマンティックセグメンテーションにおける空間的正則性の改善を動機付ける。
  • 空間的手掛かりを注入する回帰ターゲットとして符号付き距離変換を提案する。
  • 最小限のネットワーク改変でエンドツーエンド学習を可能にする。
  • 都市景観、RGB-D、および航空画像を含む多様なドメインにおける一般化を示す。

提案手法

  • 各クラスの真値マスクの符号付き距離変換(SDT)を計算し、[-1, 1]に正規化する。
  • SDT(回帰)を予測し、標準的なセマンティックセグメンテーション(分類)を行うよう、カスケード状の多タスク設定でFCNを訓練する。
  • 最終softmaxの前に、結合ベースの融合によって予測されたSDTを中間特徴と結合して融合する。
  • SDT回帰にはL1損失、分類にはクロスエントロピー損失を用い、ハイパーパラメータlambdaでバランスをとる。
  • 出力を[-1, 1]に保つため、SDT予測をHardTanhを用いてクランプする。

実験結果

リサーチクエスチョン

  • RQ1SDT回帰をマルチタスク目的として組み込むことで、ベースラインよりセマンティックセグメンテーションの品質が向上するか?
  • RQ2SDTベースの正則化は、異なるアーキテクチャやデータセットとどのように相互作用するか?
  • RQ3ハイパーパラメータ設定と多様なドメインへの適合性に対する本手法のロバスト性は?
  • RQ4SDT回帰のみで有益か、それとも分類と組み合わせる必要があるのか?

主な発見

  • マルチタスクSDT回帰は、複数のデータセットとアーキテクチャにおいて強力なベースラインに対して著しい改善をもたらす。
  • SDT回帰だけでは不十分であり、マルチタスク学習を通じて分類と結合することで成果が得られる。
  • 航空画像および室内データセット全体で、境界の一貫性を向上させ、分類ノイズを低減する。
  • 航空ベンチマークでは、SDTがIoUと建物形状の規則性を向上させ、都市間で一貫したゲインをもたらす。
  • RGB-Dおよび都市景観データセットでは、ベースラインと比較して全体精度とセグメンテーション品質が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。