Skip to main content
QUICK REVIEW

[論文レビュー] On the Adversarial Robustness of Discrete Image Tokenizers

Rishika Bhagwatkar, Irina Rish|arXiv (Cornell University)|Feb 20, 2026
Adversarial Robustness in Machine Learning被引用数 0
ひとこと要約

この論文は離散画像トークナイザの無監督敵対的攻撃に対する脆弱性を研究し、トークナイザを強化する無監督敵対的ファインチューニングを提案して、ラベル付きデータを必要とせずに分類・検索・キャプション生成のロバスト性を向上させる。

ABSTRACT

Discrete image tokenizers encode visual inputs as sequences of tokens from a finite vocabulary and are gaining popularity in multimodal systems, including encoder-only, encoder-decoder, and decoder-only models. However, unlike CLIP encoders, their vulnerability to adversarial attacks has not been explored. Ours being the first work studying this topic, we first formulate attacks that aim to perturb the features extracted by discrete tokenizers, and thus change the extracted tokens. These attacks are computationally efficient, application-agnostic, and effective across classification, multimodal retrieval, and captioning tasks. Second, to defend against this vulnerability, inspired by recent work on robust CLIP encoders, we fine-tune popular tokenizers with unsupervised adversarial training, keeping all other components frozen. While unsupervised and task-agnostic, our approach significantly improves robustness to both unsupervised and end-to-end supervised attacks and generalizes well to unseen tasks and data. Unlike supervised adversarial training, our approach can leverage unlabeled images, making it more versatile. Overall, our work highlights the critical role of tokenizer robustness in downstream tasks and presents an important step in the development of safe multimodal foundation models.

研究の動機と目的

  • 離散画像トークナイザの敵対的摂動に対する脆弱性を下流タスクに依存せず評価する。
  • 無監督(ラベル不要)攻撃が分類、検索、キャプション生成を通じて下流性能を劣化させ得ることを示す。
  • タスク固有のラベルを用いずに、トークナイザを改善する無監督敵対的ファインチューニングを開発する。
  • 堅牢なトークナイザは未知のデータセットやタスクへ一般化し、下流の変更なしに既存アーキテクチャへ組み込めることを示す。

提案手法

  • ベクトル量子化前の埋め込み空間で無監督攻撃を定式化し、エンコーダ出力の摂動を最大化して量子化コードを変更する。
  • TiTok、FlexTok、UniTok から構築された分類器に対する有効性を評価するため、無監督攻撃とエンドツーエンドの監視付き攻撃を比較する。
  • その他の成分を固定したままエンコーダを無監督の敵対的ファインチューニングとしてトークナイザへ敵対的トレーニングを拡張する。
  • 分類、マルチモーダル検索、VQA、キャプショニングなどのタスクと、Imagenette、Caltech101、ImageNet、CC3M などのデータセットでの堅牢性を評価する。
  • 攻撃された再構成、トークンインデックスの変化、データセット間での堅牢性の転移を対比する分析を提供する。
Figure 2: Reconstruction of unsupervised attacks. For each tokenizer, we show the reconstruction (given by the corresponding de-tokization models) of the clean images and adversarial images computed by unsupervised attacks at $\epsilon=\nicefrac{{4}}{{255}},\nicefrac{{8}}{{255}}$ with 2500 steps of
Figure 2: Reconstruction of unsupervised attacks. For each tokenizer, we show the reconstruction (given by the corresponding de-tokization models) of the clean images and adversarial images computed by unsupervised attacks at $\epsilon=\nicefrac{{4}}{{255}},\nicefrac{{8}}{{255}}$ with 2500 steps of

実験結果

リサーチクエスチョン

  • RQ1埋め込み空間の無監督摂動は、離散画像トークンザイザを用いるシステムの性能をタスク間で信頼性よく劣化させ得るか。
  • RQ2トークナイザの無監督対敵対的ファインチューニングは、無監督攻撃とエンドツーエンドの監視付き攻撃のロバスト性を向上させるか。
  • RQ3堅牢なトークナイザは既存のマルチモーダルアーキテクチャへ組み込んだ場合、未知データセットやタスクへロバスト性を伝播するか。
  • RQ4トークナイザ設計(TiTok、UniTok、FlexTok)と敵対的ファインチューニングのデータセット選択によるロバスト性の違いはどうなるか。

主な発見

  • 無監督の埋め込み空間攻撃は下流の性能を劣化させるのに有効で、エンドツーエンドの監視付き攻撃の強さに近づく一方、計算コストは抑えられる。
  • トークナイザを無監督・タスク非依存の方法で敵対的にファインチューニングすることで、分類、検索、VQA、キャプショニングのロバスト性を大幅に向上させ、未知データセットへの転移も実現する。
  • 堅牢なトークナイザを用いる下流モデル(FuseLIP、UniTok-MLLM)は、無監督・監督付き攻撃の両方に対して高いロバスト性を維持し、適度な半径で調整するとクリーン精度が保たれることが多い。
  • トークナイザレベルの敵対的トレーニングは、全体のエンドツーエンド敵対的トレーニングよりも著しく高速(報告された設定で約2.2倍高速)。
  • より大きい・より多様な画像データセット(例: CC3M)でファインチューニングすると、トレーニングドメインを超えた堅牢トークナイザの一般化が向上する。
Figure 3 : Unsupervised targeted attack on captioning. We evaluate UniTok-MLLM with the original tokenizer and our robust version trained on ImageNet ( $\epsilon=\nicefrac{{8}}{{255}}$ ). We use our unsupervised attacks ( $\epsilon=\nicefrac{{4}}{{255}}$ , 2,000 iterations) to minimize the distance
Figure 3 : Unsupervised targeted attack on captioning. We evaluate UniTok-MLLM with the original tokenizer and our robust version trained on ImageNet ( $\epsilon=\nicefrac{{8}}{{255}}$ ). We use our unsupervised attacks ( $\epsilon=\nicefrac{{4}}{{255}}$ , 2,000 iterations) to minimize the distance

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。