QUICK REVIEW

[論文レビュー] TIACam: Text-Anchored Invariant Feature Learning with Auto-Augmentation for Camera-Robust Zero-Watermarking

Abdullah All Tanvir, Dasgupta, Agnibh|arXiv (Cornell University)|Feb 21, 2026

Advanced Steganography and Watermarking Techniques被引用数 0

ひとこと要約

TIACam はテキストにアンカーを付けた不変特徴を differentiable auto-augmentor で学習し、カメラ誘起の歪み（視点・照明・モアレ）下での水印回復を実現する最先端のウォーターマーク復元を達成します。

ABSTRACT

Camera recapture introduces complex optical degradations, such as perspective warping, illumination shifts, and Moiré interference, that remain challenging for deep watermarking systems. We present TIACam, a text-anchored invariant feature learning framework with auto-augmentation for camera-robust zero-watermarking. The method integrates three key innovations: (1) a learnable auto-augmentor that discovers camera-like distortions through differentiable geometric, photometric, and Moiré operators; (2) a text-anchored invariant feature learner that enforces semantic consistency via cross-modal adversarial alignment between image and text; and (3) a zero-watermarking head that binds binary messages in the invariant feature space without modifying image pixels. This unified formulation jointly optimizes invariance, semantic alignment, and watermark recoverability. Extensive experiments on both synthetic and real-world camera captures demonstrate that TIACam achieves state-of-the-art feature stability and watermark extraction accuracy, establishing a principled bridge between multimodal invariance learning and physically robust zero-watermarking.

研究の動機と目的

カメラ誘起の歪み（視点、照明、モアレ）でも知覚的に気付かれずに robust なゼロウォーターマーキングを動機づける。
歪み不変表現とテキストアンカーによる意味的整合性を jointly 学習する統合フレームワークを開発する。
画像ピクセルを変更することなく invariant 特徴空間に binary watermark を結びつけ、現実世界のキャプチャで信頼性のある抽出を可能にする。

提案手法

微分可能な幾何・写真・ノイズ・フィルタリング・圧縮・モアレモジュールを備えた learned Auto-Augmentor を導入する。
画像とテキスト表現を cross-modal adversarial training により整列させるテキスト連携不変特徴学習器を用いる（識別器を用いた対向訓練）。
不変特徴空間に二値ウォーターマークメッセージを結びつけるゼロウォーターマーキングヘッドを導入し、画像ピクセルを変更せずに機能させる。
Auto-Augmentor と不変特徴抽出器の対向ループを用いて、意味内容を保持しつつ特徴の不変性を最大化するよう訓練する。
frozen image encoder に対して trainable な不変抽出器を組み合わせ、クロスモーダル識別器で監視する CLIP ベースのアーキテクチャを採用する。
小さな学習可能コードブックと射影ヘッドにより水印を登録・抽出し、歪んだ画像からビット単位の水印回収を可能にする。

実験結果

リサーチクエスチョン

RQ1ゼロウォーターマーキングのためにカメラに頑健で意味的に忠実な画像表現をどう学習するか。
RQ2微分可能な auto-augmentor は現実的なカメラ風の歪みを発見し得るか、そして特徴抽出器はそれに対抗できるか。
RQ3テキスト誘導のクロスモーダル整列は現実世界キャプチャ下の水印抽出の頑健性を向上させるか。

主な発見

Distortion	SimCLR	BYOL	Barlow	VICReg	VIbCReg	TIACam
Additive	0.82	0.88	0.79	0.83	0.89	0.97
Photometric	0.84	0.84	0.81	0.76	0.88	0.93
Perspective	0.87	0.85	0.87	0.83	0.88	0.95
JPEG	0.79	0.80	0.87	0.81	0.73	0.98
Moiré	0.85	0.83	0.84	0.89	0.87	0.97
Filtering	0.88	0.88	0.89	0.87	0.88	0.98
All	0.74	0.71	0.74	0.77	0.77	0.94

TIACam は加法・写真学的・視点・JPEG・モアレ・フィルタリングの歪みに対して高い特徴不変性を達成し、元の特徴と歪んだ特徴間のコサイン類似度において SimCLR、BYOL、Barlow Twins、VICReg、VIbCReg を上回る。
歪み All（複合歪み）の下でも TIACam は強い不変性を維持し、陽性ペアの類似度の平均は約 98%、負の分離は約 -47% の強い分離を示す。
意味的転移テストにおいて、TIACam は frozen features 上の線形プローブを用いた CIFAR-100、Imagenette、MSCOCO、Caltech-256 でトップ1およびトップ5 の高い精度を示す。
現実世界のカメラ歪みに対して、TIACam はスクリーンカメラ・プリントカメラのシナリオでほぼ完璧な水印抽出を達成（例：スクリーンカメラで 30/100 ビットの場合 99.1%/98.2%）、Screenshots でも堅牢な結果を示す（例：97.4%/95.2%）。
アブレーションにより、TIACam の不変性は CLIP のみを用いたベースラインより dataset across のコサイン類似度を約 13–15% 向上させることが示され、不変特徴学習フレームワークの有効性が検証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。