[论文解读] MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation
该论文推出了用于微观尺度视频仿真的 MicroWorldBench,创建了 MicroSim-10K 专家验证数据,并提出 MicroVerse,一个在科学保真度和亚细胞任务表现方面有所提升的微观尺度视频生成器。
Recent advances in video generation have opened new avenues for macroscopic simulation of complex dynamic systems, but their application to microscopic phenomena remains largely unexplored. Microscale simulation holds great promise for biomedical applications such as drug discovery, organ-on-chip systems, and disease mechanism studies, while also showing potential in education and interactive visualization. In this work, we introduce MicroWorldBench, a multi-level rubric-based benchmark for microscale simulation tasks. MicroWorldBench enables systematic, rubric-based evaluation through 459 unique expert-annotated criteria spanning multiple microscale simulation task (e.g., organ-level processes, cellular dynamics, and subcellular molecular interactions) and evaluation dimensions (e.g., scientific fidelity, visual quality, instruction following). MicroWorldBench reveals that current SOTA video generation models fail in microscale simulation, showing violations of physical laws, temporal inconsistency, and misalignment with expert criteria. To address these limitations, we construct MicroSim-10K, a high-quality, expert-verified simulation dataset. Leveraging this dataset, we train MicroVerse, a video generation model tailored for microscale simulation. MicroVerse can accurately reproduce complex microscale mechanism. Our work first introduce the concept of Micro-World Simulation and present a proof of concept, paving the way for applications in biology, education, and scientific visualization. Our work demonstrates the potential of educational microscale simulations of biological mechanisms. Our data and code are publicly available at https://github.com/FreedomIntelligence/MicroVerse
研究动机与目标
- 定义微观世界仿真概念并为微观尺度视频生成建立概念验证
- 开发 MicroWorldBench,一个基于评分标准的基准测试,具备专家标注的微观尺度仿真评估标准
- 构建 MicroSim-10K,一个大型的专家验证微观尺度视频数据集,使模型在物理与生物学上有依据
- 在 MicroWorldBench 上对 MicroVerse 进行训练和评估,展示科学保真度和亚细胞级任务的改进
提出的方法
- 建立一个以评分标准为基础的 MicroWorldBench,覆盖感器级、细胞级和亚细胞级过程的459个任务
- 使用 GPT-4o 和生物学专家生成并完善任务评分标准和评估标准
- 通过收集 YouTube 微观尺度视频、将其切分为片段、用 VideoMAE 分类器筛选并经专家验证,组装 MicroSim-10K
- 在 MicroSim-10K 上使用扩散式视频生成框架(带分类器自由引导)对 Wan2.1-1.3B 进行微调(并以混合域数据扩展到 Wan2.1-14B)
- 用带评分指南的 LLM 判断者(GPT-5)和人工评审对模型进行评估,报告科学保真度、视觉质量和指令遵循性
实验结果
研究问题
- RQ1微观尺度世界仿真的可行性与教育与生物医学可视化的有效性如何?
- RQ2基于评分标准的基准测试(MicroWorldBench)是否能够在器官级、细胞级和亚细胞级任务上可靠评估微观尺度视频生成?
- RQ3在以微观尺度为重点的数据集(MicroSim-10K)上训练是否能提升生成视频的科学保真度和生物学合理性?
- RQ4在亚细胞尺度任务上,MicroVerse 相对开源和商业基线的表现如何?
主要发现
| Model | Average | Organ-level | Cellular-level | Subcellular-level |
|---|---|---|---|---|
| HunyuanVideo | 23.2 | 23.1 | 23.8 | 19.4 |
| CogVideoX-5B | 43.5 | 39.9 | 47.0 | 38.6 |
| Wan2.1-T2V-1.3B | 49.4 | 45.9 | 51.7 | 52.4 |
| Wan2.2-TI2V-5B | 51.6 | 46.6 | 53.9 | 49.5 |
| Wan2.1-T2V-14B | 54.8 | 55.7 | 54.4 | 52.8 |
| Wan2.2-T2V-A14B | 53.8 | 56.3 | 52.0 | 53.3 |
| MicroVerse-1.3B (Ours) | 50.2 | 47.6 | 51.7 | 53.3 |
| Sora | 50.7 | 55.9 | 46.1 | 55.0 |
| Veo3 | 77.2 | 77.5 | 76.9 | 78.2 |
| Model | Average | Scientific Fidelity | Visual Quality | Instruction Following |
| HunyuanVideo | 23.2 | 15.6 | 48.2 | 23.4 |
| CogVideoX-5B | 43.5 | 37.4 | 64.1 | 38.6 |
| Wan2.1-T2V-1.3B | 49.4 | 40.3 | 71.8 | 50.1 |
| Wan2.2-TI2V-5B | 51.6 | 40.7 | 82.7 | 47.0 |
| Wan2.1-T2V-14B | 54.8 | 42.7 | 86.0 | 53.8 |
| Wan2.2-T2V-A14B | 53.8 | 37.8 | 92.8 | 55.4 |
| MicroVerse-1.3B (Ours) | 50.2 | 43.0 | 68.5 | 49.3 |
| Sora | 50.7 | 35.3 | 96.4 | 37.9 |
| Veo3 | 77.2 | 65.7 | 97.0 | 77.0 |
- MicroVerse 在 MicroWorldBench 上的科学保真度高于所有开源基线(43.0)。
- MicroVerse 在开源模型中在亚细胞级别取得最佳表现(53.3)。
- 通过完整的模型规模(Wan2.1-14B)和混合域训练,MicroVerse 在器官级、细胞级和亚细胞级任务上均有提升,超越此前的开源结果。
- MicroWorldBench 显示大多数模型保持视觉连贯性,但在微观尺度的物理与生物学可合理性方面存在挑战。
- MicroSim-10K 包含 9,601 个经专家验证的微观尺度片段及字幕;与真实显微镜图像的 FVD 为 123.9,表明分布接近。
- 人工评估显示 MicroVerse 在科学保真度方面优于 Wan2.1-1.3B 基线,评审者之间的一致性高( Cohen’s kappa > 0.80)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。