Skip to main content
QUICK REVIEW

[論文レビュー] Hierarchical Vector Quantized Transformer for Multi-class Unsupervised Anomaly Detection

Ruiying Lu, Yujie Wu|arXiv (Cornell University)|Oct 22, 2023
Anomaly Detection Techniques and Applications被引用数 22
ひとこと要約

本論文は HVQ-Trans を提案します。統一されたマルチクラスの教師なし異常検知フレームワークで、階層的ベクトル量子化とプロトタイプ指向の最適輸送をTransformer内で用い、同一のショートカットを抑制し、複数の物体クラスに跨る検出と定位を改善します。

ABSTRACT

Unsupervised image Anomaly Detection (UAD) aims to learn robust and discriminative representations of normal samples. While separate solutions per class endow expensive computation and limited generalizability, this paper focuses on building a unified framework for multiple classes. Under such a challenging setting, popular reconstruction-based networks with continuous latent representation assumption always suffer from the "identical shortcut" issue, where both normal and abnormal samples can be well recovered and difficult to distinguish. To address this pivotal issue, we propose a hierarchical vector quantized prototype-oriented Transformer under a probabilistic framework. First, instead of learning the continuous representations, we preserve the typical normal patterns as discrete iconic prototypes, and confirm the importance of Vector Quantization in preventing the model from falling into the shortcut. The vector quantized iconic prototype is integrated into the Transformer for reconstruction, such that the abnormal data point is flipped to a normal data point.Second, we investigate an exquisite hierarchical framework to relieve the codebook collapse issue and replenish frail normal patterns. Third, a prototype-oriented optimal transport method is proposed to better regulate the prototypes and hierarchically evaluate the abnormal score. By evaluating on MVTec-AD and VisA datasets, our model surpasses the state-of-the-art alternatives and possesses good interpretability. The code is available at https://github.com/RuiyingLu/HVQ-Trans.

研究の動機と目的

  • 複数クラスにまたがる統一的な異常検知を動機づけ、クラスごとのモデルを削減し、一般化性能を向上させる。
  • 連続潜在表現の代わりに離散的なアイコンプロトタイプを用いることで、再構成ベースの UAD における同一ショートカット問題に対処する。
  • コードブック崩壊を防ぎ、複数レベルで正常パターンを保持する階層型ベクトル量子化フレームワークを開発する。
  • プロトタイプ指向の最適輸送を導入してプロトタイプを較正し、異常スコアリングと解釈性を高める。

提案手法

  • カテゴリごとに学習可能なコードブック内の連続潜在特徴を最寄りのアイコニックプロトタイプと置換する。
  • 離散プロトタイプを用いて再構成するため、階層化された VQ ベースの Transformer エンコーダ/デコーダを組み込む。
  • 微調整なしでマルチクラスデータを扱うため、複数のコードブックとエキスパートを組み合わせたスイッチング機構を実装する。
  • 階層型 POT 損失を用いて正常特徴をプロトタイプと揃え、レベル間で異常スコアを較正する。
  • 再構成損失、プロトタイプ性とコミットメント損失、POT 損失、エキスパートスイッチングのクロスエントロピーを含む複合目的関数で最適化する。」],
  • research_questions':['統一されたマルチクラスモデルは、教師なし異常検知と定位において、クラス別モデルより高い性能を発揮できるのか?','階層的ベクトル量子化はコードブック崩壊を緩和し、連続潜在空間と比較して同一ショートカットを減らせるのか?','プロトタイプ指向の最適輸送は、頑健なプロトタイプの学習と多層の異常スコアの較正にどれほど効果的か?','スイッチング機構は、さまざまな物体カテゴリに対して再構成品質と検出精度を向上させるのか?'],
  • key_findings':['HVQ-Trans は one-for-all 設定のもとで MVTec-AD において最先端の性能を達成し、いくつかのベースラインを上回る。','階層型 VQ 層はコードブック崩壊を防ぎ、複数の特徴レベルで正常パターンを再構成して定位を改善する。','プロトタイプ指向の OT は異常スコアを較正し、カテゴリ間および複雑なシーンでより頑健な検出を生み出す。','スイッチング機構はカテゴリ別のプロトタイプとエキスパートの選択を可能にし、マルチクラス異常検知の頑健性を高める。','定性的な結果は、異常領域を正常パターンへ向けて再構成することで異常定位の改善を示す。'],
  • table_headers: []
  • table_rows: []
Figure 1 : By replacing the continuous latent features with the normal iconic prototypes of corresponding category, the normal regions are reconstructed as normal patterns (shown in yellow boxes), while the anomalies are also reconstructed as normal (shown in red boxes).
Figure 1 : By replacing the continuous latent features with the normal iconic prototypes of corresponding category, the normal regions are reconstructed as normal patterns (shown in yellow boxes), while the anomalies are also reconstructed as normal (shown in red boxes).

実験結果

リサーチクエスチョン

  • RQ1統一されたマルチクラスモデルは、教師なし異常検知と定位において、クラス別モデルより高い性能を発揮できるのか?
  • RQ2階層的ベクトル量子化はコードブック崩壊を緩和し、連続潜在空間と比較して同一ショートカットを減らせるのか?
  • RQ3プロトタイプ指向の最適輸送は、頑健なプロトタイプの学習と多層の異常スコアの較正にどれほど効果的か?
  • RQ4スイッチング機構は、さまざまな物体カテゴリに対して再構成品質と検出精度を向上させるのか?

主な発見

  • HVQ-Trans は one-for-all 設定のもとで MVTec-AD において最先端の性能を達成し、いくつかのベースラインを上回る。
  • 階層型 VQ 層はコードブック崩壊を防ぎ、複数の特徴レベルで正常パターンを再構成して定位を改善する。
  • プロトタイプ指向の OT は異常スコアを較正し、カテゴリ間および複雑なシーンでより頑健な検出を生み出す。
  • スイッチング機構はカテゴリ別のプロトタイプとエキスパートの選択を可能にし、マルチクラス異常検知の頑健性を高める。
  • 定性的な結果は、異常領域を正常パターンへ向けて再構成することで異常定位の改善を示す。
Figure 2 : (a) The overall framework of our HVQ-Trans. (b) Each VQ-based Layer replaces continuous features with iconic prototypes, equipped with the POT module to promote better learning and scoring. (c) The codebook and expert network are switched for individual image. (d) The detailed structure o
Figure 2 : (a) The overall framework of our HVQ-Trans. (b) Each VQ-based Layer replaces continuous features with iconic prototypes, equipped with the POT module to promote better learning and scoring. (c) The codebook and expert network are switched for individual image. (d) The detailed structure o

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。