QUICK REVIEW

[논문 리뷰] From Prompts to Worlds: How Users Iterate, Explore, and Make Sense of AI-Generated 3D Environments

Aung Pyae|arXiv (Cornell University)|2026. 01. 24.

Social Robot Interaction and HRI인용 수 0

한 줄 요약

이 연구는 상용 텍스트-투-3D 플랫폼과 사용자의 상호 작용을 경험적으로 조사하여 언어-공간 간의 차이, 에피소드적 존재감, 그리고 AI로 생성된 3D 환경에서 의미 구성에 영향을 주는 반복의 장애를 드러낸다.

ABSTRACT

Text-to-3D generative AI systems create navigable environments from natural language prompts, but unlike text-to-image generation, evaluation requires embodied exploration of spatial coherence, scale, and navigability. We present the first empirical study of a commercial text-to-3D platform, combining think-aloud protocols, behavioral observation, and validated measures of usability, presence, and engagement. We report three findings. First, asymmetric expressibility: users readily convey semantic intent (themes, atmosphere) but struggle to specify spatial structure (layout, scale), reflecting a language-to-space limitation rather than a skill deficit. Second, episodic presence: immersion arises when expectations align with outputs but does not accumulate into sustained place illusion. Third, structural iteration breakdowns: refinement fails due to interaction barriers - poor discoverability, opaque feedback, and high temporal costs - rather than user limitations. Together, these dynamics form a reinforcing cycle in which spatial mismatches persist, producing episodic presence and ongoing sensemaking. We reframe text-to-3D interaction as negotiated meaning-making rather than linear prompting, and argue that effective systems require hybrid input modalities, transparent feedback, and low-cost iteration.

연구 동기 및 목표

사용자가 자연어 프롬프트를 탐색 가능한 3D 공간으로 번역하는 방식을 이해하도록 촉진한다.
실체화된 과제를 통해 사용자가 AI가 생성한 3D 환경을 반복하고 탐색하며 의미를 구성하는 방식을 조사한다.
텍스트-투-3D 시스템의 사용성, 존재감, 참여에 영향을 주는 인지적 및 상호작용 장애를 식별한다.
하이브리드 입력 방식, 투명한 피드백, 저비용 반복 등을 위한 설계 시사점을 제안하여 사용자 경험을 개선한다.

제안 방법

상용 텍스트-투-3D 플랫폼과의 상호 작용 중에 Think-aloud 프로토콜(생각소리 내기)와 행동 관찰을 결합한다.
유효화된 사용성, 존재감 및 몰입의 척도를 사용하여 사용자 경험을 평가한다.
의미적 의도가 공간 구조의 명세와 어떻게 표현되는지 분석하여 언어-공간 한계를 식별한다.
출력과의 기대 정렬과의 관계에서 존재감의 에피소드를 특징화한다.
정제 과정의 붕괴 지점과 그 근본 원인(발견성, 피드백의 불투명성 등)을 식별한다.

실험 결과

연구 질문

RQ1사용자가 텍스트-투-3D 프롬프트를 사용할 때 의미 의도와 공간 구조를 어떻게 표현하는가?
RQ2AI가 생성한 3D 환경에서 존재감과 몰입의 패턴은 무엇이며, 이것이 기대와 출력 간의 정렬과 어떤 관련이 있는가?
RQ3텍스트-투-3D 도구에서 체계적 정제와 반복을 방해하는 상호작용 장애는 무엇인가?
RQ4언어-공간 격차를 줄이고 더 낮은 비용의 더 투명한 반복을 지원하기 위해 어떤 디자인 변화가 필요하는가?
RQ5텍스트-투-3D 시스템은 선형 프롬프트가 아니라 의미 구성 측면에서 어떻게 프레이밍되어야 하는가?

주요 결과

사용자는 의미적 주제와 분위기를 쉽게 전달하지만 공간 배치와 규모를 구체화하는 데 어려움을 겪는다.
몰입(에피소드적 존재감)은 출력이 기대와 일치할 때 생기지만 지속적인 장소 환상으로 축적되지는 않는다.
정제의 붕괴는 발견성 저하, 불투명한 피드백, 높은 시간 비용과 같은 상호작용 장애에서 기인한다.
공간 불일치가 지속되어 에피소드적 존재감을 낳고 지속적인 의미구성으로 이어지는 상호 강화 사이클이 나타난다.
본 연구는 텍스트-투-3D 상호작용을 합의된 의미 구성으로 보는 관점을 제안하고, 하이브리드 입력, 투명한 피드백, 저비용 반복을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.