Skip to main content
QUICK REVIEW

[論文レビュー] This Looks Like That: Deep Learning for Interpretable Image Recognition

Chaofan Chen, Oscar Li|arXiv (Cornell University)|Jun 27, 2018
Explainable Artificial Intelligence (XAI)参考文献 64被引用数 565
ひとこと要約

ProtoPNet はプロトタイプ的パート推論を用いた画像分類を導入し、解釈可能でパートベースの説明で競争力のある精度を達成し、鳥データセットと車データセットでの性能向上のために複数の ProtoPNets の組み合わせを可能にする。

ABSTRACT

When we are faced with challenging image classification tasks, we often explain our reasoning by dissecting the image, and pointing out prototypical aspects of one class or another. The mounting evidence for each of the classes helps us make our final decision. In this work, we introduce a deep network architecture -- prototypical part network (ProtoPNet), that reasons in a similar way: the network dissects the image by finding prototypical parts, and combines evidence from the prototypes to make a final classification. The model thus reasons in a way that is qualitatively similar to the way ornithologists, physicians, and others would explain to people on how to solve challenging image classification tasks. The network uses only image-level labels for training without any annotations for parts of images. We demonstrate our method on the CUB-200-2011 dataset and the Stanford Cars dataset. Our experiments show that ProtoPNet can achieve comparable accuracy with its analogous non-interpretable counterpart, and when several ProtoPNets are combined into a larger network, it can achieve an accuracy that is on par with some of the best-performing deep models. Moreover, ProtoPNet provides a level of interpretability that is absent in other interpretable deep models.

研究の動機と目的

  • 人間の推論に似たプロトタイプ部品を介して意思決定を説明することを促すことで、解釈可能な画像分類を動機づける。
  • 部位ベースの推論のためのプロトタイプ層を組み込んだニューラルネットワークアーキテクチャを開発する。
  • 部位レベルのアノテーションなしに、パート中心の制約を用いてエンドツーエンドでモデルを訓練する。
  • CUB-200-2011とStanford Carsデータセットで解釈性と競争力のある精度を示す。

提案手法

  • ProtoPNet アーキテクチャを導入する: CNN バックボーン f、m 個のプロトタイプを持つプロトタイプ層 g_p、バイアスなしの最終線形層 h。
  • プロトタイプ単位は f(x) のパッチに対する二乗距離 L2 を計算し、それらを単調変換を介して類似度スコアに変換する。
  • 各プロトタイプは訓練画像パッチに対応する潜在パッチを表し、クラスごとにプロトタイプが割り当てられ、射影後に最も近い潜在訓練パッチによって視覚化される。
  • 訓練は三段階で進行する: (i) 潜在空間を整えるためのクラスタリング損失と分離損失を用いた conv 層とプロトタイプの SGD、(ii) プロトタイプを最も近い潜在訓練パッチへ射影、 (iii) 疎性と忠実なクラス固有重み付けを促進するための最終層の凸最適化。
  • 訓練時には画像レベルのラベルのみを使用し、デコーダなしでプロトタイプの視覚化を実現する。
  • 主要な式にはプロトタイプ類似度 g_p_j(z) = max over patches(z) of log(((||patch - p_j||^2 + 1) / (||patch - p_j||^2 + epsilon))) と潜在空間を整理する Clst および Sep の項が含まれる。

実験結果

リサーチクエスチョン

  • RQ1ニューラルネットワークは、プロトタイプ的パーツを介して内部的に説明可能な方法で画像分類を行うことができるか?
  • RQ2プロトタイプベースの推論機構を組み込むことで、解釈不能なベースラインと比較して競争力のある精度を維持できるか?
  • RQ3複数の ProtoPNet モデルを組み合わせると、解釈性を維持しつつ精度はどのように影響を受けるか?
  • RQ4鳥の種や車のモデルのようなファイングレインなタスクにおけるプロトタイプとその視覚化の定性的な振る舞いはどうなるか?

主な発見

  • ProtoPNet は、さまざまな base CNN を使用した場合に、切り抜き鳥画像で非解釈可能なベースラインモデルと同等の精度を達成する。
  • 複数の ProtoPNet を組み合わせたネットワークは、切り抜き鳥データセットで最も高性能な深層モデルの一部と同等の精度を達成する(最大 84.8%)。
  • 全画像では、個々の ProtoPNet モデルは精度が低いが、VGG19/ResNet34/DenseNet ベースの ProtoPNet を組み合わせると80%以上の精度を得られ(例: 組み合わせモデルで 80.8%)。
  • 車モデルデータセットでは、組み合わせ ProtoPNet が 91.4% の精度に達し、最先端モデルと競合する(例: トップ法で 91.3%–92.8%)。
  • ProtoPNet は、どのプロトタイプ的パーツ(例えば鳥の頭部、翼)が決定に寄与するかを示し、対応するプロトタイプ画像パッチを提供することで、忠実で人間に理解しやすい説明を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。