QUICK REVIEW

[論文レビュー] Adversarial Patch Generation for Visual-Infrared Dense Prediction Tasks via Joint Position-Color Optimization

He Li, Wenyue He|arXiv (Cornell University)|Feb 27, 2026

Adversarial Robustness in Machine Learning被引用数 0

ひとこと要約

本論文は、クロスモーダルカラー再利用を用いてパッチの位置とカラーを進化させ、視覚–赤外密集予測を攻撃する敵対パッチを生成するブラックボックスの joint position-color optimization フレームワーク AP-PCO を提案する。 crowd counting、semantic segmentation、image fusion などの VI タスクに対し、効果的なクロスモーダル攻撃を実現する。

ABSTRACT

Multimodal adversarial attacks for dense prediction remain largely underexplored. In particular, visual-infrared (VI) perception systems introduce unique challenges due to heterogeneous spectral characteristics and modality-specific intensity distributions. Existing adversarial patch methods are primarily designed for single-modal inputs and fail to account for crossspectral inconsistencies, leading to reduced attack effectiveness and poor stealthiness when applied to VI dense prediction models. To address these challenges, we propose a joint position-color optimization framework (AP-PCO) for generating adversarial patches in visual-infrared settings. The proposed method optimizes patch placement and color composition simultaneously using a fitness function derived from model outputs, enabling a single patch to perturb both visible and infrared modalities. To further bridge spectral discrepancies, we introduce a crossmodal color adaptation strategy that constrains patch appearance according to infrared grayscale characteristics while maintaining strong perturbations in the visible domain, thereby reducing cross-spectral saliency. The optimization procedure operates without requiring internal model information, supporting flexible black-box attacks. Extensive experiments on visual-infrared dense prediction tasks demonstrate that the proposed AP-PCO achieves consistently strong attack performance across multiple architectures, providing a practical benchmark for robustness evaluation in VI perception systems.

研究の動機と目的

視覚–赤外（VI）密集予測タスクに対する敵対的頑健性の研究を動機づける。
可視・赤外両モダリティで動作するパッチベース攻撃を開発する。
内部モデルの勾配に依存しない共同空間的-スペクトル的最適化フレームワークを提案する。
VI 環境での秘密性を高めるためのクロスモーダルカラー再利用戦略を導入する。
複数の VI タスクとモデルに対して攻撃の有効性と秘密性を評価する。

提案手法

パッチの位置（x, y, r）とカラーパラメータの共同最適化として VI パッチ攻撃を定式化し、集団ベースの全体探索（ Differential Evolution ）で最適化する。
可視入力と赤外入力の両方にパッチ内容を埋め込む統一的な二値マスク M(x,y,r) を定義し、モダリティ固有のカラー適用を行う。
適合度関数 J = α E(Xadv) + (1−α) S(Xadv) を用いて、攻撃の有効性 E（例：GAME/ RMSE、mIoU、融合指標）と秘密性 S（SSIM/PSNR）をバランスさせる。
可視領域で高輝度カラーを適用し、赤外領域でグレースケールに変換して強度を圧縮し赤外外観と融合させるクロスモーダルカラー再利用戦略を採用する。
パッチ位置とカラーを単一ベクトルでパラメータ化し、離散-連続混合探索空間で協調的な探索を可能にする。
空間的次元とスペクトル的次元の結合を実証し、VI 密集予測には共同最適化が必要であることを正当化する。

実験結果

リサーチクエスチョン

RQ1内部モデルアクセスなしでも、ブラックボックスの敵対パッチ攻撃はVI密集予測モデルを効果的に攪乱できるか？
RQ2パッチの位置とカラーの共同最適化は、固定または逐次最適化と比較してVIタスクに対する攻撃性能と秘密性を向上させるか？
RQ3可視域で強力な摂動を維持しつつ赤外域の目立ち度を低減するクロスモーダルカラー再利用戦略は有効か？
RQ4提案する攻撃は複数のVI密集予測タスク（crowd counting、semantic segmentation、image fusion）およびアーキテクチャに一般化可能か？
RQ5トレードオフパラメータ α の攻撃有効性と秘密性への影響はどのようか？

主な発見

Setting	GAME(0)	GAME(1)	GAME(2)	GAME(3)	RMSE	PSNR_RGB	SSIM_RGB	PSNR_T	SSIM_T
Clean	13.7001	18.3601	22.1256	28.6380	24.4166	-	-	-	-
PAP	14.9798	20.9912	26.6463	33.4813	25.1726	23.5981	0.9768	23.7474	0.9747
AP-AM	14.6624	19.1693	23.1393	30.0921	25.9723	28.0505	0.9822	26.7175	0.9738
AP-PCO (Ours)	40.5543	51.2453	56.7172	63.6817	45.1786	25.6450	0.9832	28.2151	0.9850

AP-PCO は、VI タスク全体で単一モードの基準パッチや非共同パッチよりも著しく高い攻撃有効性を達成する（例：表 I に報告された指標で AP-PCO が他の代替案を上回る）。
集団ベース探索によるパッチ位置-カラーの共同最適化は、内部モデル情報を必要とせずブラックボックス設定で頑健な攻撃を生む。
クロスモーダルカラー再利用は赤外域での秘密性を高めつつ、可視域での摂動強度を維持し、スペクトル間のアーティファクトを低減する。
三つの VI 密集予測タスク（crowd counting、semantic segmentation、image fusion）を対象とした実験は、複数のアーキテクチャと防御に対して一貫した攻撃性能を示す。
本手法は VI 認識システムの頑健性を評価するための実用的なベンチマークを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。