QUICK REVIEW

[논문 리뷰] Trash to Treasure: Using text-to-image models to inform the design of physical artefacts

Amy Smith, Hope Schroeder|arXiv (Cornell University)|2023. 02. 01.

Interactive and Immersive Displays인용 수 11

한 줄 요약

검증 연구는 텍스트-투-이미지 프롬프트(Stable Diffusion)가 버려진 재료로 조각을 만들 때 아이디어 창출과 시각화에 어떻게 도움이 되는지 조사했고, 대부분의 참가자가 이미지를 통해 디자인에 영향을 받았으며 많은 이들이 이러한 도구를 다시 사용할 의향이 있다고 응답했다.

ABSTRACT

Text-to-image generative models have recently exploded in popularity and accessibility. Yet so far, use of these models in creative tasks that bridge the 2D digital world and the creation of physical artefacts has been understudied. We conduct a pilot study to investigate if and how text-to-image models can be used to assist in upstream tasks within the creative process, such as ideation and visualization, prior to a sculpture-making activity. Thirty participants selected sculpture-making materials and generated three images using the Stable Diffusion text-to-image generator, each with text prompts of their choice, with the aim of informing and then creating a physical sculpture. The majority of participants (23/30) reported that the generated images informed their sculptures, and 28/30 reported interest in using text-to-image models to help them in a creative task in the future. We identify several prompt engineering strategies and find that a participant's prompting strategy relates to their stage in the creative process. We discuss how our findings can inform support for users at different stages of the design process and for using text-to-image models for physical artefact design.

연구 동기 및 목표

물리적 인 artefacts를 포함하는 초기 단계의 창작 작업을 지원하기 위해 AI 생성 이미지 탐색의 활용을 촉진한다.
제너레이티드 이미지가 재료 제약 맥락에서 최종 조각 디자인에 정보를 제공하는지 평가한다.
AI 도구를 사용한 아이디어 발상 단계에서 디자인 단계와 프롬프팅 전략의 관계를 특징화한다.
향후 창의적 워크플로에서 텍스트-투-이미지 모델을 사용하는 사용자 반응을 평가한다.

제안 방법

30명의 참가자가 버려진 물건에서 조각 재료를 선택했고 각 참가자는 선택한 프롬프트로 Stable Diffusion을 사용해 세 장의 이미지를 생성했다.
촉진자는 이미지가 생성되는 동안 프롬프트와 기대에 대해 성찰하도록 참가자들을 유도했고, 이후 이미지를 공개하고 이를 조각 아이디어와 연결했다.
시각화 단계 이후 참가자들은 재료와 접착제로 3분 이내에 조각을 만들었다.
연속 프롬프트 간의 시맨틱 거리를 문장 임베딩(all-MiniLM-L6-v2)의 평균 코사인 거리로 측정했다.
정량적 프롬프트 분석을 보완하기 위해 사후 인터뷰와 생성된 조각의 질적 분석을 수행했다.

Figure 1: Visual elements inform sculpture design of a building.

실험 결과

연구 질문

RQ1AI가 생성한 이미지는 상류 설계 작업에서 최종 물리적 산출물에 정보를 제공하는가?
RQ2아이디어 구상 ideation 중 텍스트-투-이미지 모델의 프롬프팅 전략이 참가자의 디자인 단계(아이디어 주도 대 아이디어 비주도)와 어떤 관련이 있는가?
RQ3프롬프트에서 탐색한 시맨틱 거리의 증가와 디자인 결과물 또는 단계 간에 측정 가능한 관계가 있는가?

주요 결과

30명의 참가자 중 27명이 최소 두 개의 프롬프트-이미지 쌍을 생성했고, 24명은 세 장의 이미지를 모두 생성했다.
참가자 30명 중 23명은 생성된 이미지가 조각 디자인에 정보를 주었다고 보고했다.
참가자 30명 중 28명은 창의적 작업에 대해 Stable Diffusion과 같은 텍스트-투-이미지 모델을 다시 사용할 의향이 있다고 응답했다.
이미지의 36.2%에 참가자들이 기대한 요소가 포함되어 있었다.
프롬프트에서 재료, 재료 특성, 색상에 대한 언급 여부에 따라 평균 코사인 거리에 통계적으로 유의한 차이가 없었다(p-values all > 0.22).
아이디어로 시작한 참가자는 아이디어가 없었던 참가자보다 프롬핑에서 평균 시맨틱 거리가 낮은 경향을 보였다(t = -2.94, p = 0.006).
3개 미만의 이미지를 생성한 참가자는 프롬프핑 기반 탐색이 덜 나타났다(t = 4.31, p < 0.001).

Figure 2: Visual elements inform sculpture design of a crab.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.