[论文解读] Trash to Treasure: Using text-to-image models to inform the design of physical artefacts
一项初步研究探讨文本到图像提示(Stable Diffusion)如何帮助头脑风暴和可视化,以从废弃材料创建雕塑;结果显示大多数参与者认为图像能为他们的设计提供信息,且很多人愿意再次使用此类工具。
Text-to-image generative models have recently exploded in popularity and accessibility. Yet so far, use of these models in creative tasks that bridge the 2D digital world and the creation of physical artefacts has been understudied. We conduct a pilot study to investigate if and how text-to-image models can be used to assist in upstream tasks within the creative process, such as ideation and visualization, prior to a sculpture-making activity. Thirty participants selected sculpture-making materials and generated three images using the Stable Diffusion text-to-image generator, each with text prompts of their choice, with the aim of informing and then creating a physical sculpture. The majority of participants (23/30) reported that the generated images informed their sculptures, and 28/30 reported interest in using text-to-image models to help them in a creative task in the future. We identify several prompt engineering strategies and find that a participant's prompting strategy relates to their stage in the creative process. We discuss how our findings can inform support for users at different stages of the design process and for using text-to-image models for physical artefact design.
研究动机与目标
- 促进探索AI生成的图像,以支持涉及物理实物的早期创作任务。
- 评估在材料受限的情境下,生成的图像是否能影响最终的雕塑设计。
- 描述提示策略及其在使用AI工具进行构思阶段与设计阶段之间的关系。
- 评估用户在未来创作工作流中使用文本到图像模型的接受度。
提出的方法
- 30名参与者从废弃物中选取雕塑材料,并通过 Stable Diffusion 以他们选择的提示各自生成三张图像。
- 引导者在生成图像时促使参与者反思提示及预期,然后展示图像并将其与雕塑想法联系起来。
- 在可视化阶段后,参与者利用材料和粘合剂在3分钟内完成雕塑。
- 连续提示之间的语义距离被衡量为句子嵌入的平均余弦距离(all-MiniLM-L6-v2)。
- 对事后访谈和生成雕塑的定性分析补充了定量提示分析。

实验结果
研究问题
- RQ1AI生成的图像是否在上游设计任务中为参与者的最终物理实物提供信息?
- RQ2在使用文本到图像模型进行构思时,提示策略如何与参与者的设计阶段(以想法驱动 vs. 无想法)相关?
- RQ3在提示中的语义距离变化与设计结果或设计阶段之间是否存在可测量的关系?
主要发现
- 在30名参与者中,27人至少生成了两对提示-图像;24人生成了全部三张图像。
- 有30名参与者中有23人表示这些图像对他们的雕塑设计提供了信息。
- 有28名参与者表示愿意在再次进行创作任务时使用像 Stable Diffusion 这样的文本到图像模型。
- 36.2%的图像包含了参与者预期看到的元素。
- 基于提示中提及的材料、材料特性或颜色,平均余弦距离没有统计学上显著的差异(p 值均>0.22)。
- 有雕塑想法起点的参与者在提示中往往经历较低的平均语义距离(较低的概念探索),与未有想法的人相比(t = -2.94,p = 0.006)。
- 生成少于3张图像的参与者在提示驱动的探索方面表现较少(t = 4.31,p < 0.001)。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。