[논문 리뷰] MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation
본 논문은 MicroWorldBench를 통해 미소 규모 비디오 시뮬레이션을 제시하고, MicroSim-10K 전문가 검증 데이터셋을 생성하며, 생물학적 타당성과 세부소기관 과제 성능을 개선하는 Microscale 비디오 생성기 MicroVerse를 제시한다.
Recent advances in video generation have opened new avenues for macroscopic simulation of complex dynamic systems, but their application to microscopic phenomena remains largely unexplored. Microscale simulation holds great promise for biomedical applications such as drug discovery, organ-on-chip systems, and disease mechanism studies, while also showing potential in education and interactive visualization. In this work, we introduce MicroWorldBench, a multi-level rubric-based benchmark for microscale simulation tasks. MicroWorldBench enables systematic, rubric-based evaluation through 459 unique expert-annotated criteria spanning multiple microscale simulation task (e.g., organ-level processes, cellular dynamics, and subcellular molecular interactions) and evaluation dimensions (e.g., scientific fidelity, visual quality, instruction following). MicroWorldBench reveals that current SOTA video generation models fail in microscale simulation, showing violations of physical laws, temporal inconsistency, and misalignment with expert criteria. To address these limitations, we construct MicroSim-10K, a high-quality, expert-verified simulation dataset. Leveraging this dataset, we train MicroVerse, a video generation model tailored for microscale simulation. MicroVerse can accurately reproduce complex microscale mechanism. Our work first introduce the concept of Micro-World Simulation and present a proof of concept, paving the way for applications in biology, education, and scientific visualization. Our work demonstrates the potential of educational microscale simulations of biological mechanisms. Our data and code are publicly available at https://github.com/FreedomIntelligence/MicroVerse
연구 동기 및 목표
- 마이크로-월드 시뮬레이션 개념을 정의하고 미소 규모 비디오 생성을 위한 파일럿 개념 증명을 확립한다.
- 미소 규모 시뮬레이션에 대한 전문가 주석 기준의 루브릭 기반 벤치마크인 MicroWorldBench를 개발한다.
- 물리학과 생물학에 모델을 근거시키기 위한 대규모 전문가 검증된 미소 규모 비디오 데이터셋 MicroSim-10K를 구축한다.
- MicroWorldBench에서 MicroVerse를 학습·평가하여 과학적 충실도와 세포하 수준 작업에서의 개선을 입증한다.
제안 방법
- 기관- 수준, 세포 수준, 세포세부 규모의 459개 과제로 구성된 루브릭 기반 MicroWorldBench를 생성한다.
- task 루브릭과 평가 기준을 생성하고 다듭하기 위해 GPT-4o 및 생물학 전문가를 활용한다.
- MicroSim-10K를 YouTube의 미소 규모 비디오를 수집하고, 클립으로 분할하며 VideoMAE 분류기로 필터링하고 전문가 검증으로 다듬는다.
- 확산 기반의 비디오 생성 프레임워크에서 분류기 없는 가이던스로 MicroSim-10K를 사용해 Wan2.1-1.3B를 미세조정하고(혼합 도메인 데이터로 Wan2.1-14B로 스케일링)한다.
- 롤 루브릭에 기반한 LLM 판단자(GPT-5)와 인간 평가자를 통해 모델을 평가하고, 과학적 충실도, 시각적 품질, 지시 준수를 보고한다.
실험 결과
연구 질문
- RQ1교육 및 생물의학 시각화를 위한 미소 규모 세계 시뮬레이션의 타당성 및 타당성은 어느 정도인가?
- RQ2루브릭 기반 벤치마크(MicroWorldBench)가 기관 수준, 세포 수준, 세포 소 수준의 과제에서 미소 규모 비디오 생성을 신뢰성 있게 평가할 수 있는가?
- RQ3미소 규모에 특화된 데이터셋(MicroSim-10K)로 학습하면 생성 비디오의 과학적 충실도와 생물학적 타당성이 개선되는가?
- RQ4MicroVerse의 미소 규모 과제에서의 성능은 오픈 소스 및 상용 벤치마크에 비해 어떠하며 특히 세포 소 규모에서 어떤 차이가 있는가?
주요 결과
| 모델 | 평균 | 기관 수준 | 세포 수준 | 부분세포 수준 |
|---|---|---|---|---|
| HunyuanVideo | 23.2 | 23.1 | 23.8 | 19.4 |
| CogVideoX-5B | 43.5 | 39.9 | 47.0 | 38.6 |
| Wan2.1-T2V-1.3B | 49.4 | 45.9 | 51.7 | 52.4 |
| Wan2.2-TI2V-5B | 51.6 | 46.6 | 53.9 | 49.5 |
| Wan2.1-T2V-14B | 54.8 | 55.7 | 54.4 | 52.8 |
| Wan2.2-T2V-A14B | 53.8 | 56.3 | 52.0 | 53.3 |
| MicroVerse-1.3B (Ours) | 50.2 | 47.6 | 51.7 | 53.3 |
| Sora | 50.7 | 55.9 | 46.1 | 55.0 |
| Veo3 | 77.2 | 77.5 | 76.9 | 78.2 |
| 모델 | 평균 | 과학적 충실도 | 시각적 품질 | 지시 준수 |
| HunyuanVideo | 23.2 | 15.6 | 48.2 | 23.4 |
| CogVideoX-5B | 43.5 | 37.4 | 64.1 | 38.6 |
| Wan2.1-T2V-1.3B | 49.4 | 40.3 | 71.8 | 50.1 |
| Wan2.2-TI2V-5B | 51.6 | 40.7 | 82.7 | 47.0 |
| Wan2.1-T2V-14B | 54.8 | 42.7 | 86.0 | 53.8 |
| Wan2.2-T2V-A14B | 53.8 | 37.8 | 92.8 | 55.4 |
| MicroVerse-1.3B (Ours) | 50.2 | 43.0 | 68.5 | 49.3 |
| Sora | 50.7 | 35.3 | 96.4 | 37.9 |
| Veo3 | 77.2 | 65.7 | 97.0 | 77.0 |
- MicroVerse는 MicroWorldBench에서 모든 오픈소스 벤치마크보다 더 높은 과학적 충실도(43.0)를 달성했다.
- MicroVerse는 오픈 소스 모델 중 세포 소 수준에서 최상의 성능(53.3)을 달성했다.
- 전체-혈액 모델 확장(Wan2.1-14B) 및 혼합 도메인 학습으로 기관 수준, 세포 수준, 세포 소 수준 과제에서 기존 오픈 소스 결과를 능가하였다.
- MicroWorldBench는 대부분의 모델이 시각적 일관성을 유지하나 미소 규모의 물리적 및 생물학적 타당성에서 어려움을 겪는다는 것을 보여준다.
- MicroSim-10K는 자막이 있는 9,601개의 전문가 검증된 미소 규모 클립을 포함하며, 실제 현미경 영상과의 FVD가 123.9로 분포적 정합성에 근접함을 나타낸다.
- 인간 평가에 따르면 MicroVerse가 과학적 충실도에서 Wan2.1-1.3B 벤치마크를 능가하며 평가자 간 일치도(Cohen의 카파 계수) > 0.80의 강한 일치를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.