Skip to main content
QUICK REVIEW

[論文レビュー] Region Mutual Information Loss for Semantic Segmentation

Shuai Zhao, Yang Wang|arXiv (Cornell University)|Oct 26, 2019
Robotics and Automated Systems被引用数 83
ひとこと要約

RMI loss は領域レベルの画素依存性をモデル化し、セマンティックセグメンテーションの性能を向上させる。追加の推論オーバーヘッドなしでVOC2012とCamVidで一貫した改善をもたらす。

ABSTRACT

Semantic segmentation is a fundamental problem in computer vision. It is considered as a pixel-wise classification problem in practice, and most segmentation models use a pixel-wise loss as their optimization riterion. However, the pixel-wise loss ignores the dependencies between pixels in an image. Several ways to exploit the relationship between pixels have been investigated, \eg, conditional random fields (CRF) and pixel affinity based methods. Nevertheless, these methods usually require additional model branches, large extra memories, or more inference time. In this paper, we develop a region mutual information (RMI) loss to model the dependencies among pixels more simply and efficiently. In contrast to the pixel-wise loss which treats the pixels as independent samples, RMI uses one pixel and its neighbour pixels to represent this pixel. Then for each pixel in an image, we get a multi-dimensional point that encodes the relationship between pixels, and the image is cast into a multi-dimensional distribution of these high-dimensional points. The prediction and ground truth thus can achieve high order consistency through maximizing the mutual information (MI) between their multi-dimensional distributions. Moreover, as the actual value of the MI is hard to calculate, we derive a lower bound of the MI and maximize the lower bound to maximize the real value of the MI. RMI only requires a few extra computational resources in the training stage, and there is no overhead during testing. Experimental results demonstrate that RMI can achieve substantial and consistent improvements in performance on PASCAL VOC 2012 and CamVid datasets. The code is available at https://github.com/ZJULearning/RMI.

研究の動機と目的

  • ピクセル単位の損失を超える画素依存性を組み込むことでセグメンテーションの改善を動機づける。
  • 予測とグラウンドトゥルースの間に高次の一貫性を強制するため、領域ベースの相互情報量損失を提案する。
  • 最小限の追加メモリと追加推論コストなしでRMIの学習を効率化する。
  • ベースモデルを変更せず、既存のセグメンテーションフレームワークへの直感的な統合を可能にする。

提案手法

  • 各画素を周囲の領域(例えば3x3)で表し、高次元の点を形成する。
  • 画像をこれらの高次元点の分布として予測とグラウンドトゥルースにキャストする。
  • 相互情報量 I(Y;P) の実行可能な下位境界を導出し、学習中にこの境界を最大化する。
  • 二次の独立性仮定と閉形式の共分散表現を用いて後方分布 Y|P の分散を近似する。
  • 計算可能な行列 M とコレスキー分解を用いてMI境界の計算を正規化・安定化する。
  • RMI を標準的なクロスエントロピーと結合し、バランスパラメータを用いた結合損失とする。

実験結果

リサーチクエスチョン

  • RQ1領域ベースの相互情報量目的がピクセル単位の損失よりセグメンテーション精度を改善できるか?
  • RQ2深層学習の訓練に実用的な相互情報量の下限をどのように計算するか?
  • RQ3RMI におけるダウンサンプリングと領域サイズの性能とリソース使用のトレードオフは?
  • RQ4RMI は異なるセグメンテーションバックボーンやデータセットに一般化するか?

主な発見

  • RMI は DeepLabv3 および DeepLabv3+ のベースラインにおいて VOC2012 の検証/テストセットで実質的かつ一貫した mIoU の改善をもたらす。
  • RMI は報告設定で CRF 後処理やアフィニティフィールド損失を上回り、追加の推論コストはない。
  • RMI は CamVid データセットでも顕著な向上を提供し、データセットを超えた適用性を示している。
  • 平均プーリングを用いたダウンサンプリング戦略と適度な領域サイズが、性能とメモリ使用量のバランスを効果的にとる。
  • アブレーションにより、より大きな領域サイズと小さなダウンサンプリング因子が一般に性能を改善するが計算量を増加させる。
  • クラス別の結果は、いくつかのカテゴリでセグメンテーションの改善を示し、境界と細部の捕捉が向上していることを反映している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。