[論文レビュー] Grimm in Wonderland: Prompt Engineering with Midjourney to Illustrate Fairytales
本論文は、四段階のプロンプト設計プロセス(初期プロンプト、構成の調整、スタイルの洗練、バリエーションの選択)を用いて、Grimm兄弟の童話の信じられるイラストをMidjourney v4で生成する活動的研究として位置づけ、信頼性のあるテキスト-to-画像生成を探る。
The quality of text-to-image generation is continuously improving, yet the boundaries of its applicability are still unclear. In particular, refinement of the text input with the objective of achieving better results - commonly called prompt engineering - so far seems to have not been geared towards work with pre-existing texts. We investigate whether text-to-image generation and prompt engineering could be used to generate basic illustrations of popular fairytales. Using Midjourney v4, we engage in action research with a dual aim: to attempt to generate 5 believable illustrations for each of 5 popular fairytales, and to define a prompt engineering process that starts from a pre-existing text and arrives at an illustration of it. We arrive at a tentative 4-stage process: i) initial prompt, ii) composition adjustment, iii) style refinement, and iv) variation selection. We also discuss three reasons why the generation model struggles with certain illustrations: difficulties with counts, bias from stereotypical configurations and inability to depict overly fantastic situations. Our findings are not limited to the specific generation model and are intended to be generalisable to future ones.
研究の動機と目的
- 既存の童話テキストを用いたテキストから画像生成とプロンプト設計が信じられるイラストを生み出せるか検証する。
- テキスト出発点からのイラスト生成の反復的で再利用可能なプロセスを開発する。
- 現在の拡散モデルがカウント・ステレオタイプ・非現実的な場面の扱いにおける限界を評価する。
- 将来の生成モデルに一般化可能な実践的ガイダンスを提供する。
- プロンプト設計へのアクションリサーチ手法を他モデルへ展開可能であることを示す。
提案手法
- 事前設定されたタスク(童話の挿絵描写)を反復的に探るアクションリサーチ手法を採用する。
- 既存テキストを出発点とし、テキスト要素を主題語とスタイル修飾語へ写像してプロンプトを導出する。
- Midjourney v4とそのバリアント生成機能を用い、テキスト断片ごとに複数のイラストを作成する。
- 三つの調整段階を通じてプロンプトを洗練する:語彙/具体名詞、形容詞/副詞の追加、文脈的オブジェクト。
- 誤作動を抑え信憑性を導くために主題語とスタイル修飾語に焦点を絞る。
- 各童話につき少なくとも5点の信じられるイラストを5つの童話全体で制作することにより、成功を評価する(総目標:25点の信じられる画像)。

実験結果
リサーチクエスチョン
- RQ1既存テキストからのプロンプト設計で、よく知られた物語の信じられるイラストを生み出せるか。
- RQ2信憑性と一貫性を保つのに有効なプロンプトタイプ(主題語、スタイル修飾、画像プロンプト)は何か。
- RQ3古典的テキストを描く際に現在の生成モデル(例:カウント、先行情報、非伝統的場面)における主な制限は何か。
- RQ4提案された四段階プロセスはMidjourney v4以外の他の生成モデルへ移植可能か。
- RQ5将来の画像信憘性とエンゲージメントの usability研究に適用できる実践的方法論は何か。
主な発見
- 650を超えるプロンプト試行により2,600枚を超える画像を生成し、5つの童話それぞれに5点の信じられるイラストを達成した。
- 初期プロンプト、構成調整、スタイル洗練、バリエーション選択の四段階プロセスが暫定的に浮かび上がった。
- 主な制限として、カウントの難しさ、ステレオタイプ的先行情報からくるバイアス、非常にファンタジーな状況を描くことの困難の三つが特定された。
- イメージのバリエーションと主題/スタイル修飾語は誤作動を抑え、信憑性を向上させるのに役立つ。
- モデル間の性能差(Midjourney対DALL-E)は、あるプロンプトが一方のモデルで成功してもう一方で失敗することを示した。
- 本研究は現在および将来の生成モデルに適した汎用的で移植可能なアプローチを示唆する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。