[論文レビュー] Segment Any 4D Gaussians
SA4D は Gaussian drifting を解決するための時系列アイデンティティ場を学習して、4D Gaussian Splatting に拡張し、オープンワールドな高速セグメンテーションと動的シーン編集を実現します。
Modeling, understanding, and reconstructing the real world are crucial in XR/VR. Recently, 3D Gaussian Splatting (3D-GS) methods have shown remarkable success in modeling and understanding 3D scenes. Similarly, various 4D representations have demonstrated the ability to capture the dynamics of the 4D world. However, there is a dearth of research focusing on segmentation within 4D representations. In this paper, we propose Segment Any 4D Gaussians (SA4D), one of the first frameworks to segment anything in the 4D digital world based on 4D Gaussians. In SA4D, an efficient temporal identity feature field is introduced to handle Gaussian drifting, with the potential to learn precise identity features from noisy and sparse input. Additionally, a 4D segmentation refinement process is proposed to remove artifacts. Our SA4D achieves precise, high-quality segmentation within seconds in 4D Gaussians and shows the ability to remove, recolor, compose, and render high-quality anything masks. More demos are available at: https://jsxzs.github.io/sa4d/.
研究の動機と目的
- 変形ベースの4Dガウシアン表現に対して4Dセグメンテーションを再定式化する。
- 時間をまたぐガウシアンのドリフティングに対処するための時系列アイデンティティ特徴場を開発する。
- セグメンテーション品質を向上させるためにガウシアンアイデンティティ表と後処理を統合する。
- GT 4Dラベルなしで4Dセグメンテーションを訓練するためにビデオトラッカーからの2D監視を活用する。
- 4Dシーンにおけるリアルタイムレンダリングと編集機能(削除、再着色、合成)を実証する。
提案手法
- 4Dガウシアンスプラットを4D表現として採用し、グローバルな標準の3Dガウシアン基底と変形場を持つ。
- 各ガウシアンの標準位置と時間から、時間変動する同一性特徴 e を予測する時系列アイデンティティ特徴場ネットワークを導入する。
- 小さな畳み込みデコーダとソフトマックスを用いて各ガウシアンのアイデンティティを分類し、ビデオトラッカーマスクからの2Dアイデンティティ監督を可能にする。
- 変形ベースの予測とアイデンティティベースの予測を融合して、各タイムスタンプごとのガウシアンをエクスポートする4Dガウシアンのエクスポートプロセスを定義する。
- GT 4Dラベルが欠如する場合のアイデンティティ特徴を監督するために、2D偽セグメンテーション損失(L2D)と3D正則化損失(L3D)で訓練する。
- 外れ値を除去し境界の曖昧さを解消する2Dセグメンテーションの後処理を適用し、近傍タイムスタンプの補間のためにGaussian Identity Table (M)を維持する。
実験結果
リサーチクエスチョン
- RQ1SAMスタイルのセグメンテーションをオープンワールドの4Dガウシアン表現にどのように拡張できるか?
- RQ2時間情報を含むアイデンティティ特徴場は4D-GSにおける時間を通じたガウシアンのドリフティングを軽減できるか?
- RQ3GT 4Dラベルなしで4Dセグメンテーションを可能にする監督戦略は何か?
- RQ4 refinement とアイデンティティテーブルの仕組みは、4Dシーンのセグメンテーション品質とレンダリング速度をどう改善するか?
- RQ5動的シーンにおいてSA4Dでどのような編集機能(削除、再着色、合成)が実現可能になるか?
主な発見
| Model | mIoU (%) (HyperNeRF) | mAcc (%) (HyperNeRF) | mIoU (%) (Neu3D) | mAcc (%) (Neu3D) |
|---|---|---|---|---|
| SAGA | 65.25 | 75.56 | 76.26 | 81.56 |
| Gaussian Grouping | 69.53 | 91.55 | 87.02 | 98.72 |
| Ours w/o TFF (w/o Refinement) | 80.26 | 99.56 | - | - |
| Ours w/ TFF (w/o Refinement) | 81.10 | 99.54 | 80.14 | 99.88 |
| Ours w/ all | 89.86 | 99.24 | 93.02 | 99.76 |
- SA4DはRTX 3090で数秒以内に高速な対話型4Dセグメンテーションを実現する。
- 時間的アイデンティティ場を組み込むと、ガウシアンのドリフティングが減少し、時間を超えたIDの一貫性が向上する。
- 時間系列アイデンティティ監督と3D正則化を組み合わせると、3Dベースラインと比較して動的シーンで高いセグメンテーション精度を達成する。
- Gaussian Identity Tableは、ベースラインの4D-GSと比較してほとんど追加ストレージを要せず、ほぼリアルタイムのレンダリングと編集を可能にする。
- リファインメントステップはアーティファクトと境界の曖昧さを大幅に低減し、動的シーンでのIoUと精度を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。