Skip to main content
QUICK REVIEW

[論文レビュー] Visual Recognition with Deep Nearest Centroids

Wenguan Wang, Han Cheng|arXiv (Cornell University)|Sep 15, 2022
Remote-Sensing Image Classification被引用数 45
ひとこと要約

この論文は、Deep Nearest Centroids (DNC) を提案します。これはケースベースの非パラメトリック分類器で、クラスのサブセントロイドを用いて視覚認識とセグメンテーションを行い、従来のパラメトリック softmax 分類器より透明性と移用性を向上させます。

ABSTRACT

We devise deep nearest centroids (DNC), a conceptually elegant yet surprisingly effective network for large-scale visual recognition, by revisiting Nearest Centroids, one of the most classic and simple classifiers. Current deep models learn the classifier in a fully parametric manner, ignoring the latent data structure and lacking simplicity and explainability. DNC instead conducts nonparametric, case-based reasoning; it utilizes sub-centroids of training samples to describe class distributions and clearly explains the classification as the proximity of test data and the class sub-centroids in the feature space. Due to the distance-based nature, the network output dimensionality is flexible, and all the learnable parameters are only for data embedding. That means all the knowledge learnt for ImageNet classification can be completely transferred for pixel recognition learning, under the "pre-training and fine-tuning" paradigm. Apart from its nested simplicity and intuitive decision-making mechanism, DNC can even possess ad-hoc explainability when the sub-centroids are selected as actual training images that humans can view and inspect. Compared with parametric counterparts, DNC performs better on image classification (CIFAR-10, ImageNet) and greatly boots pixel recognition (ADE20K, Cityscapes), with improved transparency and fewer learnable parameters, using various network architectures (ResNet, Swin) and segmentation models (FCN, DeepLabV3, Swin). We feel this work brings fundamental insights into related fields.

研究の動機と目的

  • ディープ視覚認識におけるパラメトリック softmax 分類器に対する、シンプルで解釈可能な代替案を動機づける。
  • 各クラス内の潜在的なデータ構造をサブセントロイド表現で捉える。
  • 距離ベースの非パラメトリック分類を通じた表現学習の直接監督を可能にする。
  • 表現学習を固定クラス固有パラメータから切り離して移用性を向上させる。
  • 予測を人間が視認できるサブセントロイド(トレーニングの実例)につなぐことで説明可能性を示す。

提案手法

  • サンプルを全クラスの最近接サブセントロイドへ距離ベースのルールで割り当てる DNC 分類器を定義する。
  • 各クラスを、特徴空間内でクラス内の決定論的クラスタリングにより学習された K 個のサブセントロイドで表現する。
  • クラスタリング問題をトランスポーテーションポリトープへ緩和し、迅速な Sinkhorn ベースのアルゴリズムで解く。
  • サブセントロイドを発見するクラス別クラスタリングと、最近接サブセントロイドを用いた予測の教師あり学習を交互に行い、訓練する。
  • 最近接サブセントロイドを用いてクラス確率を計算する訓練損失を定式化し、非パラメトリック分類を可能にする。
  • ResNet、Swin などのさまざまなバックボーンや、セグメンテーションモデル(FCN、DeepLabV3、Swin-UNet)との互換性を示す。

実験結果

リサーチクエスチョン

  • RQ1大規模な視覚認識において、非パラメトリックでセントロイドベースの分類器がパラメトリック softmax の性能に匹敵するか、または上回るか?
  • RQ2クラスのサブセントロイドはクラス内のばらつきをよりよく捉え、タスク間の移用性を向上させるか?
  • RQ3サブセントロイドへの距離を通じた表現学習は、セグメンテーション性能と解釈性を向上させるか?
  • RQ4訓練中に効率的な Sinkhorn ベースのクラスタリングを用いてサブセントロイドの推定をスケーラブルにできるか?
  • RQ5トレーニングデータの実例へサブセントロイドを制約することは、精度を犠牲にせずにアドホックな説明可能性を提供できるか?

主な発見

  • DNC はスクラッチからのトレーニングで画像分類においてパラメトリック対応手法を上回り、CIFAR-10 でトップ-1 が 0.23-0.24%、ImageNet で 0.24-0.32% の向上を §4.1 で達成した。
  • ImageNet 前提のバックボーンを用いた DNC は ADE20K と Cityscapes でピクセル単位のセマンティック分割を大幅に改善(それぞれ 1.6-2.5% mIoU、1.1-1.9% mIoU)を §4.2 で示した。
  • サブセントロイドを実際のトレーニング画像に制約すると、0.12% のトップ-1 精度の犠牲でアドホックな説明可能性が得られ、パラメトリックより 0.17% 優れていると §4.3 で示した。
  • DNC は学習済みの知識をソースタスク(例:ImageNet)からターゲットタスク(例:Cityscapes)へ完全に転送可能で、表現学習に焦点を当てることで実現される。
  • 手法は、クラス内クラスタリングによる非教師付き学習と、距離ベースの相関機能を持つ教師あり表現学習を相乗的に組み合わせたもの。
  • DNC の訓練は、効率的なクラスタリングとオンラインセントロイド推定のおかげで ImageNet ではわずかな遅延(約 5%)にとどまる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。