[논문 리뷰] From Prompts to Worlds: How Users Iterate, Explore, and Make Sense of AI-Generated 3D Environments
이 연구는 상용 텍스트-투-3D 플랫폼과 사용자의 상호 작용을 경험적으로 조사하여 언어-공간 간의 차이, 에피소드적 존재감, 그리고 AI로 생성된 3D 환경에서 의미 구성에 영향을 주는 반복의 장애를 드러낸다.
Text-to-3D generative AI systems create navigable environments from natural language prompts, but unlike text-to-image generation, evaluation requires embodied exploration of spatial coherence, scale, and navigability. We present the first empirical study of a commercial text-to-3D platform, combining think-aloud protocols, behavioral observation, and validated measures of usability, presence, and engagement. We report three findings. First, asymmetric expressibility: users readily convey semantic intent (themes, atmosphere) but struggle to specify spatial structure (layout, scale), reflecting a language-to-space limitation rather than a skill deficit. Second, episodic presence: immersion arises when expectations align with outputs but does not accumulate into sustained place illusion. Third, structural iteration breakdowns: refinement fails due to interaction barriers - poor discoverability, opaque feedback, and high temporal costs - rather than user limitations. Together, these dynamics form a reinforcing cycle in which spatial mismatches persist, producing episodic presence and ongoing sensemaking. We reframe text-to-3D interaction as negotiated meaning-making rather than linear prompting, and argue that effective systems require hybrid input modalities, transparent feedback, and low-cost iteration.
연구 동기 및 목표
- 사용자가 자연어 프롬프트를 탐색 가능한 3D 공간으로 번역하는 방식을 이해하도록 촉진한다.
- 실체화된 과제를 통해 사용자가 AI가 생성한 3D 환경을 반복하고 탐색하며 의미를 구성하는 방식을 조사한다.
- 텍스트-투-3D 시스템의 사용성, 존재감, 참여에 영향을 주는 인지적 및 상호작용 장애를 식별한다.
- 하이브리드 입력 방식, 투명한 피드백, 저비용 반복 등을 위한 설계 시사점을 제안하여 사용자 경험을 개선한다.
제안 방법
- 상용 텍스트-투-3D 플랫폼과의 상호 작용 중에 Think-aloud 프로토콜(생각소리 내기)와 행동 관찰을 결합한다.
- 유효화된 사용성, 존재감 및 몰입의 척도를 사용하여 사용자 경험을 평가한다.
- 의미적 의도가 공간 구조의 명세와 어떻게 표현되는지 분석하여 언어-공간 한계를 식별한다.
- 출력과의 기대 정렬과의 관계에서 존재감의 에피소드를 특징화한다.
- 정제 과정의 붕괴 지점과 그 근본 원인(발견성, 피드백의 불투명성 등)을 식별한다.
실험 결과
연구 질문
- RQ1사용자가 텍스트-투-3D 프롬프트를 사용할 때 의미 의도와 공간 구조를 어떻게 표현하는가?
- RQ2AI가 생성한 3D 환경에서 존재감과 몰입의 패턴은 무엇이며, 이것이 기대와 출력 간의 정렬과 어떤 관련이 있는가?
- RQ3텍스트-투-3D 도구에서 체계적 정제와 반복을 방해하는 상호작용 장애는 무엇인가?
- RQ4언어-공간 격차를 줄이고 더 낮은 비용의 더 투명한 반복을 지원하기 위해 어떤 디자인 변화가 필요하는가?
- RQ5텍스트-투-3D 시스템은 선형 프롬프트가 아니라 의미 구성 측면에서 어떻게 프레이밍되어야 하는가?
주요 결과
- 사용자는 의미적 주제와 분위기를 쉽게 전달하지만 공간 배치와 규모를 구체화하는 데 어려움을 겪는다.
- 몰입(에피소드적 존재감)은 출력이 기대와 일치할 때 생기지만 지속적인 장소 환상으로 축적되지는 않는다.
- 정제의 붕괴는 발견성 저하, 불투명한 피드백, 높은 시간 비용과 같은 상호작용 장애에서 기인한다.
- 공간 불일치가 지속되어 에피소드적 존재감을 낳고 지속적인 의미구성으로 이어지는 상호 강화 사이클이 나타난다.
- 본 연구는 텍스트-투-3D 상호작용을 합의된 의미 구성으로 보는 관점을 제안하고, 하이브리드 입력, 투명한 피드백, 저비용 반복을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.