[论文解读] Testing Relational Understanding in Text-Guided Image Generation
这篇论文系统地在 15 个基本关系上使用 169 次人工评判测试 DALL-E 2,并发现与提示的平均一致性只有大约 22%,这表明关系理解能力有限。
Relations are basic building blocks of human cognition. Classic and recent work suggests that many relations are early developing, and quickly perceived. Machine models that aspire to human-level perception and reasoning should reflect the ability to recognize and reason generatively about relations. We report a systematic empirical examination of a recent text-guided image generation model (DALL-E 2), using a set of 15 basic physical and social relations studied or proposed in the literature, and judgements from human participants (N = 169). Overall, we find that only ~22% of images matched basic relation prompts. Based on a quantitative examination of people's judgments, we suggest that current image generation models do not yet have a grasp of even basic relations involving simple objects and agents. We examine reasons for model successes and failures, and suggest possible improvements based on computations observed in biological intelligence.
研究动机与目标
- 评估现代文本引导的图像生成器将简单关系绑定到所描绘场景的能力。
- 量化人类在多种基本物理和代理关系下对机器生成图像的一致性程度。
- 识别影响提示与图像对齐的因素(如关系类型、CLIP 相似性)。
- 讨论可能的体系结构和学习方法改进,以提升 AI 模型中的关系成分组合能力。
提出的方法
- 设计一个包含 8 种物理关系和 7 种代理关系的 15 关系刺激集。
- 使用 DALL-E 2 为每个提示生成 18 张图像,总共收集 1350 张图像。
- 请 169 名参与者判断每张图像是否与给定的句子提示相匹配。
- 计算每个提示和每张图像的平均一致性,并分析物理关系与代理关系之间的差异。
- 检验 CLIP 相似度分数与人工一致性之间的关系。
- 应用贝叶斯多层模型,在考虑随机效应的同时评估关系类型和 CLIP 分数的影响。
实验结果
研究问题
- RQ1DALL-E 2 生成的图像是否在物理与代理提示中,对基本关系与人类判断相符?
- RQ2关系类型(物理与代理)如何影响图像与提示之间的一致性?
- RQ3基于 CLIP 的图像-提示相似性与人类对匹配的一致性之间的关系是什么?
- RQ4在多大程度上可以可靠地描述简单关系提示,以及哪些因素调节成功?
主要发现
- 在 75 个提示上的人类平均一致性为 22.2%(95% 置信区间 18.3–26.6)。
- 代理提示的一致性较高(28.4%,95% CI 22.8–34.2)高于物理提示(16.9%,95% CI 11.9–23.0)。
- Holm 校正的检验显示所有 15 个关系的一致性均大于 0%,但只有 3 个关系的平均一致性超过 25%(触碰、帮助、踢)。
- 即使在不进行多重比较校正的情况下,也没有任何关系达到高于 50% 的平均一致性。
- CLIP 相似性与人类一致性呈中等相关(Spearman rho = 0.39,p = 5.5e-4)。
- 贝叶斯混合效应模型表明关系类型和 CLIP 分数对匹配概率的影响在小到中等范围内显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。