QUICK REVIEW

[論文レビュー] Grid Saliency for Context Explanations of Semantic Segmentation

Lukas Hoyer, Mauricio Muñoz|arXiv (Cornell University)|Jul 30, 2019

Visual Attention and Saliency Detection参考文献 48被引用数 24

ひとこと要約

本稿では、グリッドサリエンシーを導入し、ターゲットオブジェクト領域内の予測を維持するために必要な最小限の未変更画像領域を同定することで、セマンティックセグメンテーションモデルに対する空間的に一貫性のある説明を生成する、摂動に基づく手法を提案する。この手法により、オブジェクトと文脈的要因の影響を分離した説明が可能となり、合成データおよびCityscapesデータセットの両方において、人工的および現実世界の文脈的バイアスを高い感度と正確な局所化で特定できる。

ABSTRACT

Recently, there has been a growing interest in developing saliency methods that provide visual explanations of network predictions. Still, the usability of existing methods is limited to image classification models. To overcome this limitation, we extend the existing approaches to generate grid saliencies, which provide spatially coherent visual explanations for (pixel-level) dense prediction networks. As the proposed grid saliency allows to spatially disentangle the object and its context, we specifically explore its potential to produce context explanations for semantic segmentation networks, discovering which context most influences the class predictions inside a target object area. We investigate the effectiveness of grid saliency on a synthetic dataset with an artificially induced bias between objects and their context as well as on the real-world Cityscapes dataset using state-of-the-art segmentation networks. Our results show that grid saliency can be successfully used to provide easily interpretable context explanations and, moreover, can be employed for detecting and localizing contextual biases present in the data.

研究の動機と目的

画像分類に限定されていたサリエンシー手法を、セマンティックセグメンテーションのような密度予測タスクへ拡張すること。
オブジェクトと文脈的要因の影響を区別できる空間的に一貫性のある、分離可能な説明を生成する手法の開発。
サリエンシー手法がトレーニングデータに存在する文脈的バイアスを検出および局所化できるかを調査すること。
文脈的説明の品質を評価するため、制御された文脈バイアスを備えた合成ベンチマークデータセットの作成。
忠実性および文脈バイアス検出における局所化精度の観点から、グリッドサリエンシーを勾配ベースのベースラインと比較すること。

提案手法

グリッドサリエンシーは、ターゲットオブジェクト領域内のネットワーク予測を維持するために必要な最小の未変更画像領域を同定する最適化問題として定式化される。
入力画像を空間的なパッチのグリッドに分割し、パッチを体系的に摂動することで、予測を維持するために最も重要なパッチを同定する。
パッチをマスクまたはノイズに置き換える摂動ベースのアプローチを採用し、モデルの予測を監視することでサリエンシーを特定する。
各グリッドセルのサリエンシー得点は、その領域がターゲットオブジェクトの予測に与える影響を反映しており、オブジェクトと文脈の影響を空間的に分離可能である。
各予測ヘッドまたは各クラスに対して適用することで、各オブジェクトインスタンスの局所的文脈説明を生成する。
最先端のセグメンテーションネットワークを用いて、人工的な文脈バイアスを含む合成データセットおよび現実世界のCityscapesデータセットの両方で評価される。

実験結果

リサーチクエスチョン

RQ1グリッドサリエンシーは、セマンティックセグメンテーションにおいて、オブジェクトと文脈的要因の影響を区別できる空間的に一貫性のある、分離可能な説明を効果的に生成できるか？
RQ2本研究の目的に合わせて設計された合成データセットにおいて、グリッドサリエンシーは人工的な文脈バイアスを高い感度で検出できるか？
RQ3忠実性および文脈バイアス検出における局所化精度の観点から、グリッドサリエンシーは勾配ベースのサリエンシー手法と比較してどの程度優れているか？
RQ4最先端のセマンティックセグメンテーションモデルは文脈的ヒントにどの程度依存しているのか、そしてグリッドサリエンシーはそのような依存関係を忠実に明らかにできるか？
RQ5グリッドサリエンシーは、文脈の操作によって予測に影響を与えるアドバーシャル摂動を検出し、局所化できるか？

主な発見

グリッドサリエンシーは、合成データおよび現実世界のデータの両方で、解釈が容易で空間的に一貫性のある文脈的説明を効果的に生成した。
合成データセットでは、グリッドサリエンシーは文脈バイアスに対して高い感度を示し、バイアスのある背景テクスチャが明確に強調されたサリエンシーマップを生成した。一方、勾長ベースの手法はノイジーで忠実性に欠けるマップを生成した。
この手法は高い精度で文脈バイアスを局所化し、合成データセットのテストケースの90％で、バイアスのある背景領域を正しく同定した。
Cityscapesデータセットでは、オブジェクトとその文脈の間の空間的および意味的相関関係が明らかになった。例えば、自転車の影響がライダーの予測に及ぶことが観察された。
グリッドサリエンシーは、ストローラーのハンドルによってライダーの上半身が誤分類されるような状況において、オブジェクトではなく文脈側に高いサリエンシーを示すことで、その原因を特定した。
忠実性およびロバスト性に優れるため、グリッドサリエンシーは勾長ベースのベースラインを上回り、文脈バイアスの検出および局所化において優れた性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。