[論文レビュー] ONRW: Optimizing inversion noise for high-quality and robust watermark
ONRWは自己注意制約と疑似マスキングを備えた拡散モデルの inversion ノイズ最適化を通じて透かしを埋め込み、画像に高い視覚品質と変換・攻撃に対する強いロバスト性を実現する。
Watermarking methods have always been effective means of protecting intellectual property, yet they face significant challenges. Although existing deep learning-based watermarking systems can hide watermarks in images with minimal impact on image quality, they often lack robustness when encountering image corruptions during transmission, which undermines their practical application value. To this end, we propose a high-quality and robust watermark framework based on the diffusion model. Our method first converts the clean image into inversion noise through a null-text optimization process, and after optimizing the inversion noise in the latent space, it produces a high-quality watermarked image through an iterative denoising process of the diffusion model. The iterative denoising process serves as a powerful purification mechanism, ensuring both the visual quality of the watermarked image and enhancing the robustness of the watermark against various corruptions. To prevent the optimizing of inversion noise from distorting the original semantics of the image, we specifically introduced self-attention constraints and pseudo-mask strategies. Extensive experimental results demonstrate the superior performance of our method against various image corruptions. In particular, our method outperforms the stable signature method by an average of 10\% across 12 different image transformations on COCO datasets. Our codes are available at https://github.com/920927/ONRW.
研究の動機と目的
- AI生成コンテンツの知的財産を保護するための頑健な透かしを動機づける。
- 再学習を要せず inversion ノイズ最適化によって透かしを埋め込む拡散モデルベースのフレームワークを提案する。
- 透かしの知覚的不透明性と、一般的および故意の画像歪みに対する耐性を確保する。
提案手法
- Stable Diffusionにおける null-text inversion を用いてクリーン画像を inversion ノイズへ変換する。
- 拡散のデノイジング中に透かし情報を埋め込むよう潜在空間で inversion ノイズを最適化する。
- 画像構造を保つために自己注意制約を適用し、透かしを前景領域のみに制限する疑似マスクを用いる。
- 訓練中にシミュレーションされた攻撃層を組み込み、変換および再構成に対する透かしのロバスト性を高める。
- 復号透かしの精度、自己注意の整合性、画像忠実度を組み合わせたロスを用いる(L = alpha L_decoded + beta L_self-attention + gamma L_mse)。
- 事前学習済みの拡散モデルとデコーダ部の追加訓練は不要。
実験結果
リサーチクエスチョン
- RQ1拡散モデルの inversion ノイズを最適化することで透かし情報を画像に invisibly 埋め込むことは可能か。
- RQ2自己注意制約と疑似マスクは拡散ベースの透かしの視覚品質とロバスト性を改善するか。
- RQ3提案手法の ONRW 透かしは一般的な幾何・光学的変換の範囲および圧縮攻撃にどの程度強いか。
- RQ4訓練時にシミュレーション攻撃層を統合することは、モデル重みの再訓練なしに透かしの耐性を向上させるか。
主な発見
| Dataset | Attack | Dwt-Dct | Dwt-Dct-Svd | SSL Watermark | HiDDeN | RivaGAN | Stable Signature | Ours |
|---|---|---|---|---|---|---|---|---|
| COCO | None | 0.93 | 0.99 | 0.99 | 0.99 | 0.84 | 0.99 | 0.99 |
| COCO | Crop_01 | 0.49 | 0.50 | 0.53 | 0.88 | 0.61 | 0.92 | 0.99 |
| COCO | Crop_05 | 0.53 | 0.52 | 0.83 | 0.97 | 0.76 | 0.99 | 0.99 |
| COCO | Rot_25 | 0.47 | 0.51 | 0.91 | 0.61 | 0.61 | 0.64 | 0.93 |
| COCO | Rot_90 | 0.63 | 0.53 | 0.97 | 0.58 | 0.52 | 0.51 | 0.94 |
| COCO | Resize_0.3 | 0.48 | 0.99 | 0.99 | 0.54 | 0.58 | 0.65 | 0.96 |
| COCO | Resize_0.7 | 0.72 | 0.99 | 0.99 | 0.87 | 0.79 | 0.96 | 0.99 |
| COCO | Brightness_1.5 | 0.39 | 0.46 | 0.63 | 0.99 | 0.53 | 0.98 | 0.99 |
| COCO | Brightness_2.0 | 0.64 | 0.50 | 0.56 | 0.98 | 0.45 | 0.96 | 0.98 |
| COCO | JPEG_80 | 0.44 | 0.52 | 0.73 | 0.93 | 0.56 | 0.90 | 0.97 |
| COCO | JPEG_50 | 0.42 | 0.51 | 0.59 | 0.83 | 0.51 | 0.84 | 0.89 |
| COCO | Noise | 0.49 | 0.53 | 0.99 | 0.99 | 0.60 | 0.99 | 0.98 |
| COCO | Filter | 0.53 | 0.98 | 0.99 | 0.69 | 0.81 | 0.90 | 0.91 |
| COCO | Average | 0.55 | 0.66 | 0.82 | 0.83 | 0.63 | 0.86 | 0.96 |
| ImageNet | None | 0.86 | 0.99 | 0.99 | 0.99 | 0.78 | 0.99 | 0.99 |
| ImageNet | Crop_01 | 0.51 | 0.50 | 0.59 | 0.87 | 0.61 | 0.91 | 0.98 |
| ImageNet | Crop_05 | 0.51 | 0.53 | 0.80 | 0.97 | 0.72 | 0.98 | 0.99 |
| ImageNet | Rot_25 | 0.51 | 0.51 | 0.85 | 0.61 | 0.58 | 0.64 | 0.90 |
| ImageNet | Rot_90 | 0.49 | 0.54 | 0.92 | 0.58 | 0.52 | 0.50 | 0.91 |
| ImageNet | Resize_0.3 | 0.57 | 0.98 | 0.66 | 0.54 | 0.58 | 0.63 | 0.98 |
| ImageNet | Resize_0.7 | 0.73 | 0.99 | 0.87 | 0.86 | 0.73 | 0.95 | 0.99 |
| ImageNet | Brightness_1.5 | 0.41 | 0.45 | 0.92 | 0.98 | 0.53 | 0.97 | 0.98 |
| ImageNet | Brightness_2.0 | 0.49 | 0.50 | 0.83 | 0.97 | 0.49 | 0.95 | 0.96 |
| ImageNet | JPEG_80 | 0.50 | 0.52 | 0.85 | 0.91 | 0.56 | 0.88 | 0.96 |
| ImageNet | JPEG_50 | 0.51 | 0.51 | 0.66 | 0.80 | 0.53 | 0.82 | 0.88 |
| ImageNet | Noise | 0.47 | 0.53 | 0.91 | 0.97 | 0.60 | 0.98 | 0.96 |
| ImageNet | Filter | 0.60 | 0.96 | 0.98 | 0.69 | 0.74 | 0.88 | 0.91 |
| ImageNet | Average | 0.55 | 0.65 | 0.83 | 0.83 | 0.61 | 0.85 | 0.95 |
- ONRWは COCO データセット上の 12 種類の画像変換に対して Stable Signature を平均約 10%上回る。
- 定性的および定量的結果は、さまざまな歪みに対して高い画像品質と透かし抽出の頑健性を示す。
- PSNR/SSIM 指標は画像忠実度が競合手法と比べても高水準であり、COCOデータセットの None 条件下で PSNR 27.11、SSIM 0.88 を達成。
- ロバスト性テストでは、COCO の平均ビット精度が典型的な幾何・光学的編集で 0.95 を超える。
- 生成後手法と比較して、ONRW は圧縮および再構成攻撃下で透かし抽出精度をより高く維持する。
- アブレーション研究は、品質とロバスト性のバランスにとってシミュレーション攻撃層と null-text 最適化の重要性を確認した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。