QUICK REVIEW

[論文レビュー] Compositional Convolutional Networks For Robust Object Classification under Occlusion.

Adam Kortylewski, Qing Liu|arXiv (Cornell University)|May 28, 2019

Adversarial Robustness in Machine Learning被引用数 4

ひとこと要約

この論文では、部分的遮蔽およびマスク攻撃に対して頑健な物体分類を達成するために、深層畳み込みニューラルネットワーク（DCNNs）と構成的オブジェクトモデルを組み合わせたハイブリッドモデルを提案する。DCNN特徴を初期分類および不確実性検出に活用し、遮蔽状態の場合は学習済みの部品ベースの構成的モデルを適用することで、訓練時に遮蔽データを必要としないまま、非遮蔽画像では高い精度を維持するとともに、遮蔽に対する頑健性を著しく向上させる。

ABSTRACT

Deep convolutional neural networks (DCNNs) are powerful models that yield impressive results at object classification. However, recent work has shown that they do not generalize well to partially occluded objects and to mask attacks. In contrast to DCNNs, compositional models are robust to partial occlusion, however, they are not as discriminative as deep models. In this work, we combine DCNNs and compositional object models to retain the best of both approaches: a discriminative model that is robust to partial occlusion and mask attacks. Our model is learned in two steps. First, a standard DCNN is trained for image classification. Subsequently, we cluster the DCNN features into dictionaries. We show that the dictionary components resemble object part detectors and learn the spatial distribution of parts for each object class. We propose mixtures of compositional models to account for large changes in the spatial activation patterns (e.g. due to changes in the 3D pose of an object). At runtime, an image is first classified by the DCNN in a feedforward manner. The prediction uncertainty is used to detect partially occluded objects, which in turn are classified by the compositional model. Our experimental results demonstrate that combining compositional models and DCNNs resolves a fundamental problem of current deep learning approaches to computer vision: The combined model recognizes occluded objects, even when it has not been exposed to occluded objects during training, while at the same time maintaining high discriminative performance for non-occluded objects.

研究の動機と目的

部分的遮蔽されたオブジェクトや敵対的マスク攻撃に対して、深層畳み込みニューラルネットワーク（DCNNs）の一般化性能が低いという問題に取り組む。
DCNNの識別力と構成モデルの遮蔽耐性を組み合わせる。
訓練時にそのような例を確認していない状態でも、遮蔽オブジェクトの正確な分類を可能にする。
3次元ポーズの違いに起因するオブジェクト部品の活性化パターンの空間的変動を、構成モデルの混合モデルを用いてモデル化する。
DCNNの予測不確実性を用いて推論時に遮蔽を検出し、頑健な分類のための構成モデルに切り替える。

提案手法

標準的なDCNNを画像分類用に事前学習し、特徴マップを出力する。
学習済みDCNNの特徴をクラスタリングして辞書を構築し、その成分はオブジェクト部品検出器に類似する。
各オブジェクトクラスの部品の空間的分布を、クラスタリングされた特徴から学習する。
3次元ポーズの変化に起因する空間的活性化パターンの大きなばらつきを扱うために、構成的成分の混合モデルを用いる。
推論時、DCNNが順方向分類を実行し、予測不確実性によって潜在的な遮蔽を特定する。
遮蔽されたオブジェクトは、部品検出器と空間的事前知識を活用した構成モデルを用いて再分類する。

実験結果

リサーチクエスチョン

RQ1DCNNと構成モデルを組み合わせたハイブリッドモデルは、訓練時に遮蔽例を必要とせずに部分的遮蔽に対する頑健性を向上させることができるか？
RQ2DCNNの予測不確実性をどのように活用すれば、推論時に遮蔽オブジェクトを検出できるか？
RQ3学習済み部品検出器と空間的事前知識を備えた構成モデルは、未観測の遮蔽パターンに対してもどの程度一般化できるか？
RQ4構成的成分の混合モデルは、3次元ポーズの変化に起因する部品活性化の大きな空間的変動を効果的にモデル化できるか？
RQ5統合モデルは、非遮蔽画像では高い識別性能を維持するとともに、遮蔽状態の画像では頑健性が向上するか？

主な発見

統合モデルは非遮蔽画像においても高い精度を達成し、ベースとなるDCNNの識別力の強みを保っている。
訓練時に遮蔽例が存在しなくても、モデルは遮蔽オブジェクトを正しく分類できた。
予測不確実性の活用により、遮蔽インスタンスの信頼性のある検出が可能となり、再分類のための構成モデルへの切り替えが誘発された。
学習済み部品検出器と空間的事前知識を備えた構成モデルは、マスク攻撃および部分的遮蔽に対する頑健性を著しく向上させた。
構成的成分の混合モデルは、異なる3次元ポーズに起因する部品活性化の空間的変動を効果的に捉えていた。
本アプローチは、コンピュータビジョン分野における現在のディープラーニングモデルの根本的限界である「遮蔽下での一般化性能の低さ」を解決した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。