[论文解读] Watermark-based Attribution of AI-Generated Content
该论文分析基于水印的检测与AI生成内容的归因,给出理论性能界限,并引入一个高效的水印选择算法以提高归因准确性,在多种GenAI模型上进行经验验证。
Several companies have deployed watermark-based detection to identify AI-generated content. However, attribution--the ability to trace back to the user of a generative AI (GenAI) service who created a given AI-generated content--remains largely unexplored despite its growing importance. In this work, we aim to bridge this gap by conducting the first systematic study on watermark-based, user-level attribution of AI-generated content. Our key idea is to assign a unique watermark to each user of the GenAI service and embed this watermark into the AI-generated content created by that user. Attribution is then performed by identifying the user whose watermark best matches the one extracted from the given content. This approach, however, faces a key challenge: How should watermarks be selected for users to maximize attribution performance? To address the challenge, we first theoretically derive lower bounds on detection and attribution performance through rigorous probabilistic analysis for any given set of user watermarks. Then, we select watermarks for users to maximize these lower bounds, thereby optimizing detection and attribution performance. Our theoretical and empirical results show that watermark-based attribution inherits both the accuracy and (non-)robustness properties of the underlying watermark. Specifically, attribution remains highly accurate when the watermarked AI-generated content is either not post-processed or subjected to common post-processing such as JPEG compression, as well as black-box adversarial post-processing with limited query budgets.
研究动机与目标
- 动机:需要将AI生成内容的归因扩展至检测之外,以帮助取证分析和政策执行。
- 建立一个正式的、概率性的基于水印的检测与归因框架。
- 提出一种算法,用于选择彼此不相似的用户水印以最大化归因准确性。
- 在水印假设下给出检测和归因性能的理论界限。
- 在不同GenAI模型和内容类型上进行实验验证检测/归因性能以及水印选择方法。
提出的方法
- 定义一个基于水印的检测与归因管线,具有每用户水印、一个解码器和一个相似性阈值。
- 通过 decoded 水印与注册用户水印之间的 BA(比特精确度/按位准确度)并设定阈值 tau 来建模检测。
- 将归因定义为选择其水印与解码水印之间的 BA 值最大者对应的用户。
- 将水印选择表述为在现有用户水印之间最小化最大成对 BA,并通过从最远字符串问题的约简来证明 NP-hard 性。
- 开发近似解(BSTA、NRg、A-BSTA)以解决判定问题,并在用户注册时实现实际的水印分配。
- 通过 beta-accurate 水印和 gamma-random 水印分析性能,以捕捉编码/解码行为以及非AI 内容的随机性。
实验结果
研究问题
- RQ1如何将基于水印的方法从用户不可知的检测扩展到对AI生成内容的用户感知归因?
- RQ2在水印假设下,检测与归因的理论性能界限(TDR、TAR、FDR)有哪些?
- RQ3如何为新用户选择水印以最大化归因效果,以及算法权衡是什么?
- RQ4基于水印的检测与归因对后处理和对抗性尝试的鲁棒性如何,这些特性如何影响性能?
- RQ5所提出的水印框架是否也可应用于AI生成文本,除了图像之外?
主要发现
- 当内容未进行大量后处理时,基于水印的检测与归因可以达到高准确性,并对常见后处理(如 JPEG、模糊、亮度/对比度变化)保持鲁棒。
- 当用户水印彼此不相似时,归因性能提高,论文给出一个正式目标以最小化水印之间的最大成对相似性(BA)。
- 水印选择问题是 NP-hard,使用高效的近似算法(BSTA、NRg、A-BSTA)来解决。
- 在 Stable Diffusion、Midjourney、DALL-E 2 上的实证评估显示出准确的检测和归因,且水印选择算法优于基线。
- 该方法同样适用于AI生成文本,除了图像之外,说明基于水印的归因具有广泛适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。