[논문 리뷰] Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate Fairytales
논문은 Grimm 형제의 동화를 Midjourney v4를 사용하여 믿을 수 있는 삽화를 생성하기 위한 초기 프롬프트, 구성 조정, 스타일 정제, 변형 선택의 4단계 프롬프트 엔지니어링 프로세스를 행동 연구로 제시한다.
The quality of text-to-image generation is continuously improving, yet the boundaries of its applicability are still unclear. In particular, refinement of the text input with the objective of achieving better results - commonly called prompt engineering - so far seems to have not been geared towards work with pre-existing texts. We investigate whether text-to-image generation and prompt engineering could be used to generate basic illustrations of popular fairytales. Using Midjourney v4, we engage in action research with a dual aim: to attempt to generate 5 believable illustrations for each of 5 popular fairytales, and to define a prompt engineering process that starts from a pre-existing text and arrives at an illustration of it. We arrive at a tentative 4-stage process: i) initial prompt, ii) composition adjustment, iii) style refinement, and iv) variation selection. We also discuss three reasons why the generation model struggles with certain illustrations: difficulties with counts, bias from stereotypical configurations and inability to depict overly fantastic situations. Our findings are not limited to the specific generation model and are intended to be generalisable to future ones.
연구 동기 및 목표
- 사전 존재하는 동화 텍스트를 대상으로 텍스트-이미지 생성과 프롬프트 엔지니어링이 믿을 수 있는 삽화를 생산할 수 있는지 조사한다.
- 텍스트 시작점으로부터 삽화를 생성하기 위한 반복적이고 재사용 가능한 프로세스를 개발한다.
- 카운트, 고정관념, 환상적 시나리오를 다루는 현재 확산 모델의 한계를 평가한다.
- 향후 생성 모델에 일반화될 수 있는 실용적인 지침을 제공한다.
- 모델 간 프롬프트 엔지니어링에 행동 연구 접근법의 이전 가능성을 시연한다.
제안 방법
- 정해진 과제(동화 삽화화)에 대해 프롬프트 엔지니어링을 반복적으로 탐구하는 행동 연구 접근법을 채택한다.
- 기존 텍스트를 시작점으로 삼아 텍스트 요소를 주제 용어와 스타일 수식어로 매핑하여 프롬프트를 도출한다.
- Midjourney v4와 그 변형 생성 기능을 사용하여 텍스트 조각당 여러 삽화를 만든다.
- 문구/특정 명사, 형용사/부사 추가, 맥락적 객체의 세 가지 조정 수준을 통해 프롬프트를 다듬는다.
- 환각을 줄이고 신뢰성 있는 삽화를 유도하기 위해 주제 용어와 스타일 수식어에 집중한다.
- 5편의 동화에 걸쳐 최소 5개의 믿을 만한 삽화를 생산하여 성공 여부를 평가한다(총 목표: 25개의 믿을 만한 이미저).

실험 결과
연구 질문
- RQ1사전 존재하는 텍스트에서 시작된 프롬프트 엔지니어링이 잘 알려진 서사에 대해 믿을 만한 삽화를 도출할 수 있는가?
- RQ2신뢰성과 일관성을 유지하는 데 효과적인 프롬프트 유형(주제 용어, 스타일 수식어, 이미지 프롬프트)은 무엇인가?
- RQ3고전 텍스트를 삽화화할 때 현재 생성 모델의 주요 한계(예: 카운트, 프라이어, 비전통적 장면)는 무엇인가?
- RQ4제안된 4단계 프로세스가 Midjourney v4를 넘어 다른 생성 모델에 전이 가능한가?
- RQ5향후 이미지의 신뢰성 및 참여도에 대한 사용성 연구를 위한 실용적 방법론은 무엇인가?
주요 결과
- 650건이 넘는 프롬프트 시도가 2,600개가 넘는 이미지로 확산되어 5편의 동화 각각에 대해 5개의 믿을 만한 삽화를 달성했다.
- 초기 프롬프트, 구성 조정, 스타일 정제, 변화 선택의 잠정적 4단계 프로세스가 도출되었다.
- 세 가지 주요 한계가 확인되었다: 카운트의 난제, 고정관념적 프라이어에서의 편향, 매우 환상적인 상황 묘사의 불가.
- 이미지 변형과 주제/스타일 수식어가 망상(헛소통)을 제약하고 신뢰성을 향상시키는 데 도움을 줄 수 있다.
- 모델 간의 성능 차이(Midjourney vs. DALL-E)는 특정 프롬프트가 한 모델에서는 성공하고 다른 모델에서는 실패하는 사례를 보여주었다.
- 본 연구는 현재 및 향후 생성 모델에 적합한 일반적이고 전이 가능한 접근법을 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.