QUICK REVIEW

[論文レビュー] From Prompts to Worlds: How Users Iterate, Explore, and Make Sense of AI-Generated 3D Environments

Aung Pyae|arXiv (Cornell University)|Jan 24, 2026

Social Robot Interaction and HRI被引用数 0

ひとこと要約

この研究は商用のテキスト-to-3Dプラットフォームとのユーザー相互作用を実証的に調査し、言語と空間のギャップ、断続的な存在感、繰り返しの障壁がAI作成3D環境の意味づけを形成することを明らかにする。

ABSTRACT

Text-to-3D generative AI systems create navigable environments from natural language prompts, but unlike text-to-image generation, evaluation requires embodied exploration of spatial coherence, scale, and navigability. We present the first empirical study of a commercial text-to-3D platform, combining think-aloud protocols, behavioral observation, and validated measures of usability, presence, and engagement. We report three findings. First, asymmetric expressibility: users readily convey semantic intent (themes, atmosphere) but struggle to specify spatial structure (layout, scale), reflecting a language-to-space limitation rather than a skill deficit. Second, episodic presence: immersion arises when expectations align with outputs but does not accumulate into sustained place illusion. Third, structural iteration breakdowns: refinement fails due to interaction barriers - poor discoverability, opaque feedback, and high temporal costs - rather than user limitations. Together, these dynamics form a reinforcing cycle in which spatial mismatches persist, producing episodic presence and ongoing sensemaking. We reframe text-to-3D interaction as negotiated meaning-making rather than linear prompting, and argue that effective systems require hybrid input modalities, transparent feedback, and low-cost iteration.

研究の動機と目的

ユーザーが自然言語プロンプトをナビゲーション可能な3D空間へ翻訳する理解を促進する。
AI生成3D環境を具現化されたタスクを通じて、ユーザーが反復、探索、意味づけをどう行うかを検証する。
テキスト-to-3Dシステムの使いやすさ、存在感、エンゲージメントに影響を与える認知的・相互作用上の障壁を特定する。
ユーザー体験を改善するためのハイブリッド入力モダリティ、透明なフィードバック、低コストの反復設計の示唆を提案する。

提案手法

商用のテキスト-to-3Dプラットフォームとの相互作用中に思考 aloud プロトコルと行動観察を組み合わせる。
ユーザビリティ、存在感、エンゲージメントの検証済み指標を用いてユーザー体験を評価する。
意味的意図が表現される一方で空間構造の指定がどのようになるかを分析し、言語-to-空間の限界を特定する。
存在のエピソードを特徴づけ、それが出力との期待整合性とどう関連するかを検討する。
発見性、フィードバックの不透明さ、時間コストの高さなど、反復のブレーンニュースの原因を特定する。

実験結果

リサーチクエスチョン

RQ1テキスト-to-3Dプロンプトを使用する際、ユーザーは意味的意図と空間構造をどのように表現するのか。
RQ2AI生成3D環境における没入感と存在感のパターンは何か、期待と出力の整合性とどう関連するのか。
RQ3テキスト-to-3Dツールで体系的な洗練と反復を妨げる相互作用の障壁は何か。
RQ4言語-to-空間ギャップを緩和し、より低コストで透明性の高い反復を支援する設計変更は何か。
RQ5意味づけの観点から、テキスト-to-3Dシステムはどのように線形プロンプティング以上のものとして捉えられるべきか。

主な発見

ユーザーは意味テーマと雰囲気を容易に伝える一方で、空間レイアウトとスケールの指定には苦労する。
出力が期待と一致したときに没入感（エピソード的存在感）が生じるが、それが継続的な場所の幻覚へと結晶化はしない。
洗練のブレークダウンは、発見性の低さ、不透明なフィードバック、時間コストの高さといった相互作用上の障壁に起因する。
空間的不一致が持続することで、エピソード的存在感と継続的な意味づけを生み出す再強化のサイクルが生じる。
本研究は、テキスト-to-3Dインタラクションを交渉された意味づけとみなし、ハイブリッド入力、透明なフィードバック、低コストの反復を提案するべきだと主張する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。