Skip to main content
QUICK REVIEW

[論文レビュー] Trash to Treasure: Using text-to-image models to inform the design of physical artefacts

Amy Smith, Hope Schroeder|arXiv (Cornell University)|Feb 1, 2023
Interactive and Immersive Displays被引用数 11
ひとこと要約

パイロット研究では、テキストから画像へのプロンプト(Stable Diffusion)が、廃材から彫刻を作成するための発想と可視化をどのように支援できるかを調査し、多くの参加者が画像が設計に情報を与えたと感じ、今後もこのようなツールを利用する人が多いことを示した。

ABSTRACT

Text-to-image generative models have recently exploded in popularity and accessibility. Yet so far, use of these models in creative tasks that bridge the 2D digital world and the creation of physical artefacts has been understudied. We conduct a pilot study to investigate if and how text-to-image models can be used to assist in upstream tasks within the creative process, such as ideation and visualization, prior to a sculpture-making activity. Thirty participants selected sculpture-making materials and generated three images using the Stable Diffusion text-to-image generator, each with text prompts of their choice, with the aim of informing and then creating a physical sculpture. The majority of participants (23/30) reported that the generated images informed their sculptures, and 28/30 reported interest in using text-to-image models to help them in a creative task in the future. We identify several prompt engineering strategies and find that a participant's prompting strategy relates to their stage in the creative process. We discuss how our findings can inform support for users at different stages of the design process and for using text-to-image models for physical artefact design.

研究の動機と目的

  • 物理的アーティファクトを含む初期段階の創造的タスクを支援するために、AI生成画像の探索を促進する。
  • 材料制約のある文脈で、生成画像が最終的な彫刻デザインに情報を与えるかを評価する。
  • AIツールを用いたアイデア創出の過程で、プロンプト戦略とデザイン段階との関係を特徴づける。
  • 将来の創造的ワークフローでテキストから画像へのモデルを使用することに対するユーザー受容性を評価する。

提案手法

  • 30名の参加者が廃棄物から彫刻材料を選定し、それぞれの選択したプロンプトを用いてStable Diffusion で3枚の画像を生成した。
  • ファシリテーターは、画像生成中にプロンプトと期待について参加者に振り返るよう促し、その後画像を公開して彫刻のアイデアと結びつけた。
  • ビジュアライゼーション段階の後、参加者は材料と接着剤を用いて3分以内に彫刻を制作した。
  • 連続するプロンプト間のセマンティック距離は、文埋め込み(all-MiniLM-L6-v2)の平均コサイン距離として測定した。
  • ポストインタビューと作成された彫刻の定性的分析が、定量的なプロンプト分析を補完した。
Figure 1: Visual elements inform sculpture design of a building.
Figure 1: Visual elements inform sculpture design of a building.

実験結果

リサーチクエスチョン

  • RQ1AI生成画像は上流のデザイン課題における参加者の最終的な物理的アーティファクトに情報を提供するか。
  • RQ2アイデア創出におけるプロンプト戦略は、テキストから画像へのモデルを用いたデザイン段階(アイデア中心かアイデアなしか)とどのように関連するか。
  • RQ3プロンプトにおける意味的距離の推移とデザイン成果や段階との間に測定可能な関係はあるか。

主な発見

  • 30名中27名が少なくとも2組のプロンプト–画像を作成し、24名が3つの画像すべてを作成した。
  • 30名中23名が画像が彫刻デザインに情報を提供したと報告した。
  • 30名中28名が創造的タスクのためにStable Diffusionのようなテキストから画像へのモデルを再度使用すると回答した。
  • 画像の36.2%には、参加者が見たいと予期した要素が含まれていた。
  • プロンプト中の材料、材料特性、色の言及に基づく平均コサイン距離に統計的に有意な差は見られなかった(p値はすべて0.22を超える)。
  • 彫刻のアイデアから開始した participant は、アイデアを持たなかった人よりも平均意味距離が低い傾向を示した(t = -2.94, p = 0.006)。
  • 3枚未満の画像を作成した参加者は、プロンプトに基づく探索が少なかった(t = 4.31, p < 0.001)。
Figure 2: Visual elements inform sculpture design of a crab.
Figure 2: Visual elements inform sculpture design of a crab.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。