[论文解读] Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos
SVG2 提供大规模合成全景视频场景图数据集,并引入 TraSeR——一个将原始视频与全景轨迹一次前向传递转换为时空场景图的模型,相较基线有显著提升。
We introduce Synthetic Visual Genome 2 (SVG2), a large-scale panoptic video scene graph dataset. SVG2 contains over 636K videos with 6.6M objects, 52.0M attributes, and 6.7M relations, providing an order-of-magnitude increase in scale and diversity over prior spatio-temporal scene graph datasets. To create SVG2, we design a fully automated pipeline that combines multi-scale panoptic segmentation, online-offline trajectory tracking with automatic new-object discovery, per-trajectory semantic parsing, and GPT-5-based spatio-temporal relation inference. Human verification of SVG2 annotation accuracy confirms its reliability (objects: 93.8%, attributes: 88.3%, relations: 85.4%). Building on this resource, we train TRaSER, a video scene graph generation model. TRaSER augments VLMs with a trajectory-aligned token arrangement mechanism and new modules: an object-trajectory resampler and a temporal-window resampler to convert raw videos and panoptic trajectories into compact spatio-temporal scene graphs in a single forward pass. The temporal-window resampler binds visual tokens to short trajectory segments to preserve local motion and temporal semantics, while the object-trajectory resampler aggregates entire trajectories to maintain global context for objects. On the PVSG, VIPSeg, VidOR and SVG2 test datasets, TRaSER improves relation detection by +15 to 20%, object prediction by +30 to 40% over the strongest open-source baselines and by +13% over GPT-5, and attribute prediction by +15%. When TRaSER's generated scene graphs are sent to a VLM for video question answering, it delivers a +1.5 to 4.6% absolute accuracy gain over using video only or video augmented with Qwen2.5-VL's generated scene graphs, demonstrating the utility of explicit spatio-temporal scene graphs as an intermediate representation.
研究动机与目标
- 用开放词汇对象与关系的密集、时间 grounding 的视频场景图需求来解释必要性。
- 创建可扩展、自动化的管线,以合成包含全景轨迹、属性和关系的大规模 SVG2。
- 开发 TraSeR,使其在单次前向传递中将视频解析为结构化的时空场景图。
- 在开放基线和场景图辅助的视频问答任务中展示 TraSeR 的有效性与用处。
提出的方法
- 开发一个完全自动化的 SVG2 合成管线,结合多尺度全景分割、在线–离线轨迹跟踪与新对象发现、逐轨迹语义解析,以及基于 GPT-5 的时空关系推断。
- 引入一个轨迹对齐的令牌排列机制,将 ViT 令牌绑定到对象轨迹并在时间上保持身份一致。
- 提出一个双重重采样器,由用于全局对象上下文的对象-轨迹重采样器和用于局部运动与时序语义的时间窗口重采样器组成。
- 在 SVG2 与外部视频数据集上进行任务特定提示训练,使输出在单次前向传递中生成结构化的场景图。
- 在开源基线和 GPT-5 的对比中评估 TraSeR,并评估其在以场景图作为中间表示的视觉问答中的影响。

实验结果
研究问题
- RQ1一个完全自动化的管线是否可以在大规模上生成密集、时间 grounding 的视频场景图?
- RQ2轨迹对齐设计和双重重采样器设计如何影响视频场景图中的对象定位与关系推理?
- RQ3相较基线和现有场景图,SVG2 生成的图在后续任务(如视频问答)上是否有改进?
- RQ4将合成 SVG2 数据与现实世界视频标注结合,对 VSG 性能有何贡献?
主要发现
- SVG2 包含超过 63.6 万个视频,6.6 百万对象、5200 万属性和 670 万关系,与此前数据集相比达到显著规模提升。
- TraSeR 在关系预测上相比最强的开源基线提升 15%–20%,对象预测提升 30%–40%,相比 GPT-5 提升约 13%。
- TraSeR 在属性预测上相比开源现有最先进方法提升约 15%,并在 SVG2 测试集上取得强劲结果。
- 将 TraSeR 生成的图嵌入到用于视频问答的视觉语言模型中时,相较仅使用视频或仅使用视频+其他图的基线,绝对准确率提升约 1.5%–4.6%。
- 所提出的基于大语言模型的 judge 在对象与关系评估上与人类标注者具有高度的一致性,验证了自动语义评估的有效性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。