[論文レビュー] Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos
SVG2は大規模な合成パンオプティックビデオシーングラフデータセットを提供し、RAWビデオとパンオプティック軌跡を一度のパスで時空間シーングラフに変換するモデル TraSeR を導入。ベースラインに対して大幅な改善を示す。
We introduce Synthetic Visual Genome 2 (SVG2), a large-scale panoptic video scene graph dataset. SVG2 contains over 636K videos with 6.6M objects, 52.0M attributes, and 6.7M relations, providing an order-of-magnitude increase in scale and diversity over prior spatio-temporal scene graph datasets. To create SVG2, we design a fully automated pipeline that combines multi-scale panoptic segmentation, online-offline trajectory tracking with automatic new-object discovery, per-trajectory semantic parsing, and GPT-5-based spatio-temporal relation inference. Human verification of SVG2 annotation accuracy confirms its reliability (objects: 93.8%, attributes: 88.3%, relations: 85.4%). Building on this resource, we train TRaSER, a video scene graph generation model. TRaSER augments VLMs with a trajectory-aligned token arrangement mechanism and new modules: an object-trajectory resampler and a temporal-window resampler to convert raw videos and panoptic trajectories into compact spatio-temporal scene graphs in a single forward pass. The temporal-window resampler binds visual tokens to short trajectory segments to preserve local motion and temporal semantics, while the object-trajectory resampler aggregates entire trajectories to maintain global context for objects. On the PVSG, VIPSeg, VidOR and SVG2 test datasets, TRaSER improves relation detection by +15 to 20%, object prediction by +30 to 40% over the strongest open-source baselines and by +13% over GPT-5, and attribute prediction by +15%. When TRaSER's generated scene graphs are sent to a VLM for video question answering, it delivers a +1.5 to 4.6% absolute accuracy gain over using video only or video augmented with Qwen2.5-VL's generated scene graphs, demonstrating the utility of explicit spatio-temporal scene graphs as an intermediate representation.
研究の動機と目的
- オープン vocab のオブジェクトと関係を持つ密で時系列的根拠づけされたビデオシーングラフの必要性を動機づける。
- パンオプティック軌跡、属性、および関係を含む大規模 SVG2 を合成する自動化パイプラインを構築する。
- TraSeR を開発し、ビデオを単一のフォワードパスで構造化された時空間シーングラフへ解析する。
- TraSeR のオープンベンチマークでの有効性を実証し、シーングラフを中間表現として用いたビデオQA の有用性を示す。
提案手法
- マルチスケールのパンオプティック分割、オンライン–オフライン軌跡追跡と新規オブジェクト発見、各軌跡の意味論的パーシング、GPT-5 ベースの時空間関係推論を組み合わせた完全自動の SVG2 合成パイプラインを開発する。
- ViT トークンをオブジェクト軌跡に結びつけ、時間を超えて同一性を保持する軌跡整列トークン配置機構を導入する。
- オブジェクト軌跡のグローバル文脈用のオブジェクト-軌跡リサンプリングと、局所運動・時制意味論のための時空間ウィンドウリサンプリングを組み合わせたデュアルリサンパラーを提案する。
- SVG2 と外部ビデオデータセットを用い、タスク固有プロンプトで TraSeR を訓練し、単一パスで構造化シーングラフを出力する。
- TraSeR をオープンソースのベースラインおよび GPT-5 と比較評価し、シーングラフを中間表現として用いたビデオQA の影響を評価する。

実験結果
リサーチクエスチョン
- RQ1完全自動パイプラインは大規模に密で時系列的根拠づけされたビデオシーングラフを生成できるのか。
- RQ2軌跡整列設計とデュアルリサンプリング設計は、ビデオシーングラフにおけるオブジェクトのグラウンディングと関係推論にどのように影響するか。
- RQ3SVG2 生成グラフは、ベースラインや既存のシーングラフと比較して下流タスクで改善をもたらすか。
- RQ4合成 SVG2 データと実世界ビデオ注釈を結合することが VSG の性能に与える寄与はどれほどか。
主な発見
- SVG2 には 63.6 万以上のビデオ、6.6M のオブジェクト、5.2 千万の属性、および 6.7M の関係が含まれ、従来データセットに対する規模の大幅な拡大を示す。
- TraSeR は strongest open-source ベースラインより関係予測を +15~+20%、オブジェクト予測を +30~+40%、GPT-5 よりは +13% 改善する。
- TraSeR はオープンソース最先端の属性予測を +15% 改善し、SVG2 テストで強い結果を達成する。
- TraSeR によって生成されたグラフをビデオQA のビジュアル言語モデルに統合すると、動画のみまたは動画と他のグラフを用いたベースラインより絶対精度が +1.5% から +4.6% 向上する。
- 提案された LLM ベースのジャッジは、オブジェクトと関係評価に関して人間の注釈者と substantial な一致を示し、自動化された意味論評価を裏付ける。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。