QUICK REVIEW

[論文レビュー] pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

David Charatan, Sizhe Li|arXiv (Cornell University)|Dec 19, 2023

Advanced Vision and Imaging被引用数 10

ひとこと要約

pixelSplatは画像ペアから3Dガウシアンプリミティブで表現される3D放射場を推定する二視点エンコーダを訓練し、局所的な極小値を避ける微分可能な確率的サンプリング方式を用いて、実時間レンダリングとスケーラブルで一般化可能な3D再構成を実現する。

ABSTRACT

We introduce pixelSplat, a feed-forward model that learns to reconstruct 3D radiance fields parameterized by 3D Gaussian primitives from pairs of images. Our model features real-time and memory-efficient rendering for scalable training as well as fast 3D reconstruction at inference time. To overcome local minima inherent to sparse and locally supported representations, we predict a dense probability distribution over 3D and sample Gaussian means from that probability distribution. We make this sampling operation differentiable via a reparameterization trick, allowing us to back-propagate gradients through the Gaussian splatting representation. We benchmark our method on wide-baseline novel view synthesis on the real-world RealEstate10k and ACID datasets, where we outperform state-of-the-art light field transformers and accelerate rendering by 2.5 orders of magnitude while reconstructing an interpretable and editable 3D radiance field.

研究の動機と目的

現実世界のマルチビューデータにおける SfM 姿勢が未知のスケール因子を含むスケール曖昧性に対処する。
二視点から各ピクセルの3Dガウシンプリミティブを推定する微分可能なエンドツーエンドのパイプラインを開発する。
新規ビュー合成のための構造化された3D放射場のラスタライゼーションベースレンダリングを実現する。
パラメトリックな深度予測と勾配の再パラメータ化トリックを導入して、プリミティブベースの適合における局所最小値を緩和する。

提案手法

エピポーラ線に沿った深度分布情報を予測することでシーンごとのスケールを解決する、エピポーラ対応の二視点画像エンコーダ。
各ピクセルごとに離散的な深度分布を出力し、この分布からガウスの平均をサンプルするピクセル単位のニューラル予測器。
平均、共分散、不透明度、球面調和関数からなるガウシアンプリミティブのパラメータ化；不透明度はサンプリング深度バケットを用いた微分可能な再パラメータ化と結びつく。
深度バケットの確率を不透明度として用い、サンプリング過程を逆伝搬可能にすることでガウシアンの位置を微分可能にサンプリング。
3Dガウシアン・スplat（ラスタライゼーションベース）によるレンダリングで新規ビューをリアルタイムに生成し、パイプライン全体の微分可能性を実現する。

実験結果

リサーチクエスチョン

RQ1現実世界のマルチビュー・データセットにおけるスケール曖昧性を、一般化可能な3D再構築フレームワーク内でどのように解消できるか？
RQ2ピクセル単位の確率的なガウシアンプリミティブ予測は、エンドツーエンドの訓練中に局所最小値を効果的に回避できるか？
RQ3わずか二枚の画像からリアルタイムレンダリングを伴う編集可能で解釈可能な3D放射場を再構成できるか？
RQ4pixelSplatは広基線の新規ビュー合成において、最先端の軽量および重厚なニューラ_renderingアプローチとどのように比較されるか？
RQ5提案された確率的ガウシアン・パラダイムのトレーニング時間・推論速度・メモリなどのリソース影響はどうなるか？

主な発見

pixelSplatはRealEstate10kおよびACIDでPSNR、SSIM、LPIPSの点でLight Field Transformersを上回る。
本手法はベースラインと比較して、トレーニングおよび推論時の実時間レンダリングとメモリ使用量の削減を達成する。
確率的でピクセル単位の深度分布と微分可能な再パラメータ化により、ガウシアンサンプリングを通じた勾配伝播を可能とし、局所最小値へのロバスト性を向上させる。
エピポーラ・トランスフォーマーはエピポーラ線に沿った深度情報をエンコードしてシーンスケールの曖昧性を解決する。
本手法は3Dガウシアンプリミティブから構成される明確で編集可能な3D放射場を提示し、レンダリングを大幅に高速化（いくつかのベースラインより約2.5オーダー程度高速）する。
アブレーションではエピポーラエンコーダと確率的サンプリングが高品質な結果に必須であり、それらを除くとPSNRが約1–2dB低下する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。