QUICK REVIEW

[論文レビュー] Generative Adversarial Perturbations with Cross-paradigm Transferability on Localized Crowd Counting

Alabi Mehzabin Anisha, Guangjing Wang|arXiv (Cornell University)|Mar 25, 2026

Adversarial Robustness in Machine Learning被引用数 0

ひとこと要約

クロスパラダムの敵対的摂動を導入し、単一の生成摂動で密度マップと点回帰の crowd-counting モデルの両方を劣化させる。高い転移性と攻撃の隠密性の良好なバランスを実現。

ABSTRACT

State-of-the-art crowd counting and localization are primarily modeled using two paradigms: density maps and point regression. Given the field's security ramifications, there is active interest in model robustness against adversarial attacks. Recent studies have demonstrated transferability across density-map-based approaches via adversarial patches, but cross-paradigm attacks (i.e., across both density map-based models and point regression-based models) remain unexplored. We introduce a novel adversarial framework that compromises both density map and point regression architectural paradigms through a comprehensive multi-task loss optimization. For point-regression models, we employ scene-density-specific high-confidence logit suppression; for density-map approaches, we use peak-targeted density map suppression. Both are combined with model-agnostic perceptual constraints to ensure that perturbations are effective and imperceptible to the human eye. Extensive experiments demonstrate the effectiveness of our attack, achieving on average a 7X increase in Mean Absolute Error compared to clean images while maintaining competitive visual quality, and successfully transferring across seven state-of-the-art crowd models with transfer ratios ranging from 0.55 to 1.69. Our approach strikes a balance between attack effectiveness and imperceptibility compared to state-of-the-art transferable attack strategies. The source code is available at https://github.com/simurgh7/CrowdGen

研究の動機と目的

敵対的脅威の下で密度マップと点回帰という二つの主要パラダイムに対するローカライズ型crowd countingの頑健性評価を動機づける。
アーキテクチャ特有の適応を必要とせず、両パラダイムを攻撃できる単一の生成摂動フレームワークを提案する。
攻撃効果と知覚的不可視性のバランスをとるマルチタスク損失を設計し、パラダイム横断の転移性を実現する。
複数データセットとモデルに対して、パラダイム横断の転移性を示し、攻撃強度、転移比、知覚品質を定量化する。

提案手法

L∞境界下で摂動を生成する3段階のU-Netジェネレータを使用。
タスク間損失として、パラダイム固有の損失（点回帰のロジット抑制、密度マップの密度抑制）と摂動制約（ヒンジ、TV、周波数、Grad-CAMガイダンス）を組み合わせるマルチタスク損失を採用する。
密度マップについては、ピーク強度と顕著さを低減するヒートマップ抑制またはピーク抑制を実装する。
点回帰器については、高信頼度検出を標的としたロジット抑制を、適応的密度認識閾値で実装する。
Grad-CAMガイド付き損失を組み込み、意味的に重要な領域に摂動を集中させ、低周波成分を強調する周波数領域制約を適用して転移性を高める。
代替モデルに対して摂動ジェネレータを訓練し、SHHAおよびUCF-QNRFデータセットを横断して未知のターゲットモデルへのパラダイム横断転移性を評価する。

実験結果

リサーチクエスチョン

RQ1 surrogateモデルで作成した敵対的摂動は、密度マップと点回帰の crowd counting モデルの双方へ転移するか？
RQ2 perceptual indistinguishability を維持しつつ、効果的な横断パラダイム攻撃を可能にする損失設計はどれか？
RQ3トランスフォーマーやCNNベースのバックボーンを含む多様なアーキテクチャを攻撃した場合の横断パラダイム転移はどれほど強いか？
RQ4密度マップと点回帰モデルは、統一された摂動ジェネレータによって悪用可能なバックボーンの脆弱性を共有しているか？

主な発見

提案された横断パラダム攻撃は、7モデルと2データセットに対して転移比(TR)が最大1.69に達し、強い横断パラダム転移性を示す。
攻撃はクリーン画像に対して平均MAEを約7倍に増加させつつ、PSNR/SSIMは競争力を維持し、密集シーンでのミス率が高い。
Grad-CAMガイド付き摂動と周波数・振幅制約を組み合わせた損失により、転移性が向上しつつ視覚品質が保たれる。
密度マップと点回帰のアーキテクチャ間で効果的に転移することから、パラダイム間で共有される潜在的脆弱性が示唆される。
基準となる転移攻撃と比較して、提案手法は攻撃力と知覚品質のバランスが良好（SHHAでPSNR約19 dB、極端な攻撃よりも視覚品質が高い場合がある）。
アブレーション研究により、摂動の制約とパラダイム固有の損失の組み合わせが性能にとって不可欠であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。