Skip to main content
QUICK REVIEW

[論文レビュー] Interpretable Image Recognition with Hierarchical Prototypes

Peter Hase, Chaofan Chen|arXiv (Cornell University)|Jun 25, 2019
Domain Adaptation and Few-Shot Learning被引用数 25
ひとこと要約

本稿では、事前に定義された分類階層の各レベルで視覚的プロトタイプを学習することで、複数レベルの分類階層において解釈可能な画像分類を可能にする深層学習モデル、階層的プロトタイプ(HPnet)を提案する。このモデルはブラックボックスモデルと同等の性能を達成するとともに、局所化された注目マップを通じて人間が理解できる説明を提供でき、訓練中に見られなかった新しいクラスを、粗い分類階層レベル(例:ライフルが訓練データにのみ存在した場合でも、ハンドガンを武器として認識)で分類することで、新規クラスを検出可能である。

ABSTRACT

Vision models are interpretable when they classify objects on the basis of features that a person can directly understand. Recently, methods relying on visual feature prototypes have been developed for this purpose. However, in contrast to how humans categorize objects, these approaches have not yet made use of any taxonomical organization of class labels. With such an approach, for instance, we may see why a chimpanzee is classified as a chimpanzee, but not why it was considered to be a primate or even an animal. In this work we introduce a model that uses hierarchically organized prototypes to classify objects at every level in a predefined taxonomy. Hence, we may find distinct explanations for the prediction an image receives at each level of the taxonomy. The hierarchical prototypes enable the model to perform another important task: interpretably classifying images from previously unseen classes at the level of the taxonomy to which they correctly relate, e.g. classifying a hand gun as a weapon, when the only weapons in the training data are rifles. With a subset of ImageNet, we test our model against its counterpart black-box model on two tasks: 1) classification of data from familiar classes, and 2) classification of data from previously unseen classes at the appropriate level in the taxonomy. We find that our model performs approximately as well as its counterpart black-box model while allowing for each classification to be interpreted.

研究の動機と目的

  • 事前に定義された分類階層の複数レベルで、人間が理解できる視覚的特徴を用いて予測を説明する解釈可能な画像認識モデルの開発。
  • 訓練中に未観測のクラスから画像を分類可能にするため、より広範な既知の分類階層レベル(例:新しい銃を「武器」として分類)に割り当てる仕組みの実現。
  • 階層の各レベルで、局所化された注目ベースの説明を提供し、例えば「霊長目」や「コアチル」といったクラス予測にどの画像領域がプロトタイプを活性化させたかを特定する。
  • ブラックボックスモデルと同等の性能を維持しつつ、階層的プロトタイプ学習によって透明性と診断能力を向上させる。
  • 訓練中に未見の分類階層レベル(特に粗い分類階層)に属する新しいクラスを検出できるかどうかを評価する。

提案手法

  • モデルは共有畳み込み特徴を有する深層ニューラルネットワークを用い、事前に定義されたクラス分類階層(例:動物 → 霊長目 → コアチル)の各レベルで階層的プロトタイプを学習する。
  • プロトタイプは潜在空間に埋め込まれ、2段階の訓練プロセス(畳み込み層のエンドツーエンド微調整、次に凸最適化によるプロトタイプ位置の最適化)によって最適化される。
  • 5エポックごとに投影段階を実施することで、プロトタイプがデータ多様体に近づくように保証され、安定性と解釈可能性が向上する。
  • モデルは画像特徴とプロトタイプ間の注目スコアを計算するプロトタイプベース分類器を採用し、各クラス予測に該当する画像領域を局所化するヒートマップを生成する。
  • 新規クラスの検出を可能にするために、新しい細分化クラスに属するか、既知の粗い分類クラス内の未観測サブクラスに属するかを識別する新しい分類ヘッドを訓練する。
  • 一般化性能の向上、特に新規クラス検出の観点から、データ拡張とドメイン適応(CEDA)を適用する。

実験結果

リサーチクエスチョン

  • RQ1視覚モデルはブラックボックスモデルと同等の性能を達成しつつ、画像分類の解釈可能な階層的説明を提供できるか?
  • RQ2訓練中に未観測のクラスから画像を分類可能か?具体的には、適切な粗い分類階層レベル(例:新しい銃を「武器」として分類)に割り当てるか?
  • RQ3学習されたプロトタイプはどの程度画像領域を適切に局所化できるか?また、これらの局所化はモデルの誤りを診断するために利用可能か?
  • RQ4階層的プロトタイプ構造は、既知のクラスの精度を維持しつつ、新規クラスの検出能力を向上させるか?
  • RQ5モデルの性能は分類階層の異なるレベルでどのように変化するか?特に、細分化と粗い分類の精度の観点から評価する。

主な発見

  • HPnetはイン・ディストリビューションデータ(F-ID)で82.61%の細分化精度を達成し、ブラックボックスVGG-16モデル(82.19%)と同等の性能を示した。
  • イン・ディストリビューションデータ(C-ID)における粗分化精度は93.57%に達し、高レベルの分類階層予測において優れた性能を示した。
  • 新規データ(C-Novel)では62.16%の粗分化精度を達成し、訓練中に未観測のサブクラスを既知の広範なカテゴリ(例:「武器」)に分類できる能力を示した。
  • 潜在空間におけるクラスタリング品質(プロトタイプの最も近い近傍が同じクラスに属する割合)はHPnetで79.24%であり、分離が良く意味のあるプロトタイプであることが示された。
  • PbThresholdを用いた新規クラス検出の正確さは52.05%であり、CEDAを適用すると51.22%に向上し、新規クラス検出において高いロバスト性を示した。
  • ヒートマップによる視覚的説明から、トップアクティベートされたプロトタイプが意味的に関連する領域(例:武器画像におけるトリガー部や手)を適切に局所化しており、誤分類の診断的インサイトを提供した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。