Skip to main content
QUICK REVIEW

[論文レビュー] Semantic Diffusion Network for Semantic Segmentation

Haoru Tan, Sitong Wu|arXiv (Cornell University)|Feb 4, 2023
Radiomics and Machine Learning in Medical Imaging被引用数 13
ひとこと要約

本論文は、学習可能なセマンティック拡散ネットワーク(SDN)を提案し、異方性拡散を近似してセマンティックセグメンテーションのクラス間境界を強化し、境界品質を向上させつつ追加コストを最小限に抑え、プラグアンドプレイ互換性を実現します。

ABSTRACT

Precise and accurate predictions over boundary areas are essential for semantic segmentation. However, the commonly-used convolutional operators tend to smooth and blur local detail cues, making it difficult for deep models to generate accurate boundary predictions. In this paper, we introduce an operator-level approach to enhance semantic boundary awareness, so as to improve the prediction of the deep semantic segmentation model. Specifically, we first formulate the boundary feature enhancement as an anisotropic diffusion process. We then propose a novel learnable approach called semantic diffusion network (SDN) to approximate the diffusion process, which contains a parameterized semantic difference convolution operator followed by a feature fusion module. Our SDN aims to construct a differentiable mapping from the original feature to the inter-class boundary-enhanced feature. The proposed SDN is an efficient and flexible module that can be easily plugged into existing encoder-decoder segmentation models. Extensive experiments show that our approach can achieve consistent improvements over several typical and state-of-the-art segmentation baseline models on challenging public benchmarks. The code will be released soon.

研究の動機と目的

  • オペレータレベルの境界認識強化を動機づけ、標準畳み込みのカーネルによるぼやけを解消する。
  • 微分可能で学習可能な拡散を想起させるモジュールを提案し、クラス間境界を強化しつつ内部噪声を抑制する。
  • エンコーダとデコーダの間にネックとしてSDNを容易に統合できることを示す。
  • 難易度の高いベンチマークにおいて一貫した境界品質とmIoUの利得を示す。

提案手法

  • 境界強化をセマンティック機能によって導かれる非線形の異方性拡散として定式化する。
  • 学習可能なカーネルとセマンティック類似度を拡散係数として組み合わせるセマンティック・ディファレンス畳み込み(SDC)を導入する。
  • UとYの連結後に1×1畳み込みを用いてSDN出力を元の特徴と融合する。
  • エンコーダとデコーダの間にモジュール式のネックとしてSDNを埋め込み、単一スケールおよびマルチスケールデコーダに対応させる。
  • 隣接層からのスケール別セマンティックガイダンスを提供するか、上位層のダウンサンプリングコピーを用いてSDNをマルチスケールバックボーンへ拡張する。

実験結果

リサーチクエスチョン

  • RQ1オペレータレベルの境界認識拡散はグローバルな性能低下なしに境界の精度を改善できるか?
  • RQ2学習可能な拡散代替(SDN)は素の拡張や他の境界志向演算よりセグメンテーションで優れているか?
  • RQ3SDNはCNNとTransformerの多様なバックボーンおよびデコーダ構成と互換性があり、効率性を維持できるか?
  • RQ4境界品質への影響は1px/3pxのFスコアとして、後処理やロスベースの境界法と比較してどうか?

主な発見

手法エンコーダADE20K mIoU (s.s.)Cityscapes mIoU (s.s.)ADE20K mIoU (m.s.)Cityscapes mIoU (m.s.)
FCNResNet-5036.1038.0872.6473.32
FCN+OursResNet-5038.12 (+2.02)39.36 (+1.28)74.75 (+2.11)75.79 (+2.47)
SemanticFPNResNet-5037.4939.0974.1075.98
SemanticFPN+OursResNet-5038.79 (+1.30)40.27 (+1.18)75.97 (+1.87)77.31 (+1.33)
SegmenterViT-B48.4850.0077.9780.07
Segmenter+OursViT-B51.05 (+2.57)52.18 (+2.18)79.42 (+1.45)81.38 (+1.31)
  • SDNはADE20KおよびCityscapesのCNNベースの基準で一貫してmIoUを向上させる(例: FCN +2.02% s.s.および +2.11% mIoU、SemanticFPN +1.30% s.s.および +1.87% mIoU、Segmenter +2.57% s.s.および +1.45% mIoU)。
  • SDNは顕著な境界品質の利得をもたらし、CityscapesでOCRNetに対する1px/3pxのFスコアをそれぞれ+4.3および+1.5上回る。
  • SDNのセマンティック・ディファレンス畳み込み(SDC)は境界Fスコアでベースの畳み込みやセントラル・ディファレンス畳み込みを上回る(SDC: 69.5 対 Vanilla 65.2 および CDC 60.1)。
  • SDCカーネルサイズを大きくしても影響は限定的で、さほど大きな膨張は性能を害する。3x3で控えめな膨張(1)が有効。
  • SDNは互換性が高く、他の境界手法(DenseCRF、SegFix、InverseForm)と組み合わせるとさらに性能を向上させる可能性がある。
  • SDNは比較的低い計算オーバーヘッドで境界強化を提供し、単一スケールおよびマルチスケールデコーダの両方にプラグイン可能。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。