Skip to main content
QUICK REVIEW

[论文解读] Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate Fairytales

Martin Ruskov|arXiv (Cornell University)|Feb 17, 2023
Digital Games and Media被引用 12
一句话总结

一篇论文探索四阶段提示工程过程(初始提示、组成调整、风格 refinements、变体选择)用 Midjourney v4 为格林 brothers’ fairy tales 插图,作为行动研究框架。

ABSTRACT

The quality of text-to-image generation is continuously improving, yet the boundaries of its applicability are still unclear. In particular, refinement of the text input with the objective of achieving better results - commonly called prompt engineering - so far seems to have not been geared towards work with pre-existing texts. We investigate whether text-to-image generation and prompt engineering could be used to generate basic illustrations of popular fairytales. Using Midjourney v4, we engage in action research with a dual aim: to attempt to generate 5 believable illustrations for each of 5 popular fairytales, and to define a prompt engineering process that starts from a pre-existing text and arrives at an illustration of it. We arrive at a tentative 4-stage process: i) initial prompt, ii) composition adjustment, iii) style refinement, and iv) variation selection. We also discuss three reasons why the generation model struggles with certain illustrations: difficulties with counts, bias from stereotypical configurations and inability to depict overly fantastic situations. Our findings are not limited to the specific generation model and are intended to be generalisable to future ones.

研究动机与目标

  • 研究文本到图像生成与提示工程是否能够为现有的童话文本生成可信的插图。
  • 开发一个从文本起点出发的迭代、可复用的插图生成流程。
  • 评估当前扩散模型在处理计数、刻板印象与奇幻场景方面的局限性。
  • 提供可推广到未来生成模型的实用指导。
  • 展示将行动研究方法迁移到跨模型的提示工程中的可转移性。

提出的方法

  • 采用行动研究方法,迭代探索为预定义任务(插画童话故事)进行的提示工程。
  • 从现有文本出发,通过将文本元素映射到主题词和风格修饰词来推导提示。
  • 使用 Midjourney v4 及其变体生成功能为每个文本片段创建多幅插图。
  • 通过三个层次的调整细化提示:措辞/具体名词、形容词/副词的添加、以及情境对象。
  • 将焦点限定在主题词和风格修饰词上,以减少幻觉并引导可信度。
  • 通过在5个童话故事中各至少生成5幅可信的插图来评估成功(总目标:25幅可信图像)。
Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate Fairytales

实验结果

研究问题

  • RQ1从现有文本出发的提示工程能否为知名叙事生成可信的插图?
  • RQ2哪些提示类型(主题词、风格修饰词、图像提示)对维持可信度和一致性有效?
  • RQ3在为经典文本绘制插图时,当前生成模型的主要局限性有哪些(例如计数、先验、非传统场景)?
  • RQ4所提出的四阶段流程是否可迁移到 Midjourney v4 以外的其他生成模型?
  • RQ5未来关于图像可信度与参与度的可用性研究可以采用哪些实际方法?

主要发现

  • 超过650次提示尝试产生了超过2,600张图像,在5个童话故事中各实现5幅可信插图。
  • 初步出现了一个尝试中的四阶段过程:初始提示、组成调整、风格 Refinement、变体选择。
  • 确定了三个主要局限性:计数困难、来自刻板先验的偏见,以及无法描绘高度奇幻情境。
  • 图像变体和主题/风格修饰词可以帮助限制幻觉并提高可信度。
  • 在不同模型之间的表现差异(Midjourney 与 DALL-E)显示某些提示在一个模型中成功但在另一个模型中失败。
  • 研究表明一种通用、可迁移的方法,适用于当前及未来的生成模型。
Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate Fairytales

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。