QUICK REVIEW

[论文解读] Sora as a World Model? A Complete Survey on Text-to-Video Generation

Fachrina Dewi Puspitasari, Chaoning Zhang|arXiv (Cornell University)|Mar 8, 2024

Artificial Intelligence in Games被引用 10

一句话总结

本综述评估文本到视频生成模型在世界建模中的方法，回顾了250+项研究并概述核心组件、关键使能技术与未来方向。

ABSTRACT

The evolution of video generation from text, from animating MNIST to simulating the world with Sora, has progressed at a breakneck speed. Here, we systematically discuss how far text-to-video generation technology supports essential requirements in world modeling. We curate 250+ studies on text-based video synthesis and world modeling. We then observe that recent models increasingly support spatial, action, and strategic intelligences in world modeling through adherence to completeness, consistency, invention, as well as human interaction and control. We conclude that text-to-video generation is adept at world modeling, although homework in several aspects, such as the diversity-consistency trade-offs, remains to be addressed.

研究动机与目标

确定一个愿景模型在感知-行动系统中作为世界模型运作所必需的关键组件。
分析文本到视频生成的进展如何支持用于世界建模的空间、行动和战略智能。
综合在T2V中提升世界模型能力的架构、使能技术和控制机制。
讨论数据集、评估实践和现实世界应用以指导未来研究。

提出的方法

采用PRISMA框架指导文献收集与筛选。
在 AAAI, ACL, CVPR, ECCV, ICCV, ICLR, IJCAI, NAACL, NeurIPS, ACM Multimedia, IEEE, arXiv 等主要 venues 搜索与文本到视频及世界模型相关的工作。
通过摘要和全文筛选并设定排除标准来整理 250+ 篇论文。
通过世界模型要求的视角分析 T2V 模型，涵盖架构、使能技术和控制。
扩展至数据集、评估与应用，以绘制当前能力与差距。
提供未来方向以推动 T2V 朝着稳健的世界模型行为发展。

实验结果

研究问题

RQ1在多大程度上可以将当前的文本到视频模型视为感知-行动系统中的世界模型？
RQ2一个T2V模型要作为世界模型运行需要哪些核心组件和能力（如空间、行动、战略智能）？
RQ3哪些使能技术和架构选择最有效地支持T2V生成中的世界模型目标？
RQ4有哪些主要挑战（如多样性与一致性的权衡），以及如何缓解？
RQ5哪些实际的数据集、评估和应用展示了T2V在世界建模方面的进展？

主要发现

文本到视频模型日益支持与世界模型目标一致的空间、行动和战略智能。
当前的T2V系统通过扩散变换器和时间处理等架构选择展现出高视觉保真度和时间一致性。
一个广泛的技术使能生态系统——文本编码器、视觉骨干网络、基于扩散的生成以及时序建模——支撑世界模型能力。
在平衡多样性与一致性，以及实现稳健的长期推理和交互动态方面仍然存在挑战。
数据集、评估协议和应用正在发展以反映世界模型范式，指向未来改进与整合。
该综述汇聚了大量研究（250+ 篇论文），为 T2V 作为世界模型提供一个连贯的视角。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。