Skip to main content
QUICK REVIEW

[论文解读] Discovering the Hidden Vocabulary of DALLE-2

Giannis Daras, Alexandros G. Dimakis|arXiv (Cornell University)|Jun 1, 2022
Digital Media Forensic Detection被引用 22
一句话总结

本文揭示了 DALLE-2 中的隐藏词汇:胡言乱语的文本提示也能产生在语义上有意义的图像,并提出一种黑箱方法来发现这些词及其可视概念。

ABSTRACT

We discover that DALLE-2 seems to have a hidden vocabulary that can be used to generate images with absurd prompts. For example, it seems that exttt{Apoploe vesrreaitais} means birds and exttt{Contarra ccetnxniams luryca tanniounons} (sometimes) means bugs or pests. We find that these prompts are often consistent in isolation but also sometimes in combinations. We present our black-box method to discover words that seem random but have some correspondence to visual concepts. This creates important security and interpretability challenges.

研究动机与目标

  • 激发并研究 DALLE-2 是否会在内部建立胡言乱语文本与视觉概念之间的映射。
  • 展示一种简单的黑箱方法,用以发现看似随机但与视觉概念相关的词语。
  • 评估所发现词汇的组合性和风格迁移属性。
  • 讨论由这些发现带来的安全性与可解释性挑战。

提出的方法

  • 通过 API 向 DALLE-2 发送提示,旨在使生成的图像出现胡言乱语文本。
  • 解析图像上的文本并将其重新用作提示,以把胡言乱语术语映射到视觉概念。
  • 尝试将识别出的词语组合以测试组合性(如鸟类吃虫子)。
  • 测试风格迁移的一致性,以查看所发现的词是否在不同风格下对应持续的视觉概念。
  • 提供关于所发现词汇的鲁棒性和局限性的定性观察。

实验结果

研究问题

  • RQ1由 DALLE-2 产生的胡言乱语提示是否对应可识别的视觉概念?
  • RQ2我们是否能识别在不同提示中始终映射到视觉类别的特定胡言乱语术语?
  • RQ3该映射是否具备组合性,允许将所发现的词语组合成连贯的场景?
  • RQ4这些映射在不同风格和提示下的稳定性如何?
  • RQ5DALLE-2 中隐藏词汇的安全性和可解释性影响是什么?

主要发现

  • 胡言乱语提示通常与视觉概念相关,如鸟类或昆虫。
  • 所发现的词有时可以组合成有意义的场景(例如:鸟类吃虫子)。
  • 相同的胡言乱语术语在不同风格下也能产生一致的概念,尽管并非普遍适用。
  • 有些提示生成的文本与预期标题一致,表明文本条件与生成图像之间存在部分一致性。
  • 这些发现引发安全性与可解释性方面的担忧,包括潜在的后门对抗提示和鲁棒性极限。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。