[논문 리뷰] Sora as a World Model? A Complete Survey on Text-to-Video Generation
이 설문조사는 텍스트-투-비디오 생성 모델이 세계 모델링에 어떻게 접근하는지 평가하고, 250+ 연구를 검토하며 핵심 구성요소, 가능 기술들, 그리고 향후 방향을 개괄합니다.
The evolution of video generation from text, from animating MNIST to simulating the world with Sora, has progressed at a breakneck speed. Here, we systematically discuss how far text-to-video generation technology supports essential requirements in world modeling. We curate 250+ studies on text-based video synthesis and world modeling. We then observe that recent models increasingly support spatial, action, and strategic intelligences in world modeling through adherence to completeness, consistency, invention, as well as human interaction and control. We conclude that text-to-video generation is adept at world modeling, although homework in several aspects, such as the diversity-consistency trade-offs, remains to be addressed.
연구 동기 및 목표
- 인지-행동 시스템 내에서 비전 모델이 세계 모델로 기능하기 위해 반드시 가져야 할 필수 구성 요소를 식별합니다.
- 텍스트-투-비디오 생성의 발전이 세계 모델링을 위한 공간적, 행동적, 전략적 지능을 어떻게 지원하는지 분석합니다.
- T2V에서 세계모델 능력을 강화하는 아키텍처, 가능 기술, 제어 메커니즘을 합성합니다.
- 향후 연구를 안내하기 위한 데이터셋, 평가 관행, 실제 응용에 대해 논의합니다.
제안 방법
- PRISMA 프레임워크를 도입하여 문헌 수집 및 스크리닝을 안내합니다.
- 텍스트-투-비디오 및 월드-모델 관련 연구를 찾기 위해 주요 학회/저널(AAAI, ACL, CVPR, ECCV, ICCV, ICLR, IJCAI, NAACL, NeurIPS, ACM Multimedia, IEEE, arXiv)을 검색합니다.
- 정의된 제외 기준으로 초록 및 전문을 선별하여 250+ 편의 논문을 선별합니다.
- 세계모델 요구사항의 렌즈를 통해 T2V 모델을 분석하고, 아키텍처, 가능 기술, 제어를 다룹니다.
- 데이터셋, 평가, 응용까지 확장하여 현 상태의 능력과 격차를 파악합니다.
- 강력한 세계모델 행동으로 T2V를 발전시키기 위한 미래 방향을 제시합니다.
실험 결과
연구 질문
- RQ1현재 텍스트-투-비디오 모델을 세계 모델로 간주할 수 있는 정도는 어느 정도인가?
- RQ2세계 모델로 기능하기 위해 T2V 모델에 필요한 핵심 구성 요소와 능력은 무엇인가(예: 공간적, 행동적, 전략적 지능)?
- RQ3어떤 가능 기술 및 아키텍처 선택이 T2V 생성에서 세계모델 목표를 가장 효과적으로 지원하는가?
- RQ4다양성-일관성 트레이드오프와 같은 도전 과제는 무엇이며 어떻게 완화될 수 있는가?
- RQ5T2V의 세계 모델링 진전에 대해 실제 데이터셋, 평가, 응용은 어떤 변화를 보여주고 있는가?
주요 결과
- 텍스트-투-비디오 모델은 세계모델 목표와 연계된 공간적, 행동적, 전략적 지능을 점차 지원합니다.
- 현재의 T2V 시스템은 확산 트랜스포머와 시간적 핸들러와 같은 아키텍처 선택을 통해 높은 시각적 충실도와 시간적 일관성을 시연합니다.
- 텍스트 인코더, 비전 백본, 확산 기반 생성, 시간적 모델링 등 광범위한 기술적 가능요인 생태계가 세계모델 능력을 뒷받침합니다.
- 다양성 및 일관성의 균형 유지, 장기적 추론 및 상호작용 동역학의 견고성 달성에는 여전히 도전이 남아 있습니다.
- 데이터셋, 평가 프로토콜, 응용은 세계모델 패러다임을 반영하도록 발전하고 있으며, 향후 개선 및 통합을 안내합니다.
- 이 설문은 250편이 넘는 다양한 연구를 한데 모아 T2V를 세계 모델로 보는 일관된 관점을 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.