Skip to main content
QUICK REVIEW

[論文レビュー] EndoGaussian: Real-time Gaussian Splatting for Dynamic Endoscopic Scene Reconstruction

Yifan Liu, Chenxin Li|arXiv (Cornell University)|Jan 23, 2024
Advanced Vision and Imaging被引用数 8
ひとこと要約

EndoGaussian は Holistic Gaussian Initialization と Spatio-temporal Gaussian Tracking を用いて、3D Gaussian Splatting を実時間動的内視鏡シーンに適用し、リアルタイムレンダリングと高品質な再構成を達成します。

ABSTRACT

Reconstructing deformable tissues from endoscopic videos is essential in many downstream surgical applications. However, existing methods suffer from slow rendering speed, greatly limiting their practical use. In this paper, we introduce EndoGaussian, a real-time endoscopic scene reconstruction framework built on 3D Gaussian Splatting (3DGS). By integrating the efficient Gaussian representation and highly-optimized rendering engine, our framework significantly boosts the rendering speed to a real-time level. To adapt 3DGS for endoscopic scenes, we propose two strategies, Holistic Gaussian Initialization (HGI) and Spatio-temporal Gaussian Tracking (SGT), to handle the non-trivial Gaussian initialization and tissue deformation problems, respectively. In HGI, we leverage recent depth estimation models to predict depth maps of input binocular/monocular image sequences, based on which pixels are re-projected and combined for holistic initialization. In SPT, we propose to model surface dynamics using a deformation field, which is composed of an efficient encoding voxel and a lightweight deformation decoder, allowing for Gaussian tracking with minor training and rendering burden. Experiments on public datasets demonstrate our efficacy against prior SOTAs in many aspects, including better rendering speed (195 FPS real-time, 100$ imes$ gain), better rendering quality (37.848 PSNR), and less training overhead (within 2 min/scene), showing significant promise for intraoperative surgery applications. Code is available at: \url{https://yifliu3.github.io/EndoGaussian/}.

研究の動機と目的

  • 実時間での変形性内視鏡組織の術中利用を目的とした3D再構成を動機づける。
  • SfM パイプラインにおける sparse COLMAP 結果を克服するための dense かつ高速な初期化を可能にする。
  • 軽量な時空間変形場で組織変形をモデル化する。
  • リアルタイムのレンダリング速度を実現しつつ高品質な再構成を維持する。
  • 外科的設定での実用的な導入を可能にするためのトレーニング負荷を低減する。

提案手法

  • dense 3D Gaussian でシーンを表現し、速度向上のため tile-based rasterizer でレンダリングする。
  • stereo/mono 入力から予測深度マップを用いた Holistic Gaussian Initialization により Gaussian を densely 初期化する。
  • 変形場を encoding voxel と軽量デコーダーに分解した Spatio-temporal Gaussian Tracking を実行する。
  • Encoding voxels は HexPlane-based multi-resolution 表現を用いて時間依存の潜在特徴を効率的に計算する。
  • Gaussian の位置・回転・スケーリング・不透明度の変化を予測する4つの小さな MLP によって Gaussians を変形する; SH 変化をモデル化しない。

実験結果

リサーチクエスチョン

  • RQ1Holistic Gaussian Initialization は秒単位で dense かつ正確な Gaussian priors を作成できるか(分・時間ではなく)?
  • RQ2軽量な時空間変形モデルは EndoGaussian の組織動態を効果的に捉えられるか?
  • RQ3EndoGaussian は公開データセット上で競合する再構成品質を維持しつつリアルタイムレンダリングを提供できるか?
  • RQ4EndoGaussian は速度・メモリ・精度の点で最新の deformable tissue reconstruction 手法とどのように比較されるか?

主な発見

データセット手法PSNRSSIMLPIPSTrTimeFPSGPU
ENDONERFEndoNeRF [22]36.0620.9330.0895.0 hours0.0419GB
ENDONERFEndoSurf [27]36.5290.9540.0748.5 hours0.0417GB
ENDONERFLerPlane-9k [24]34.9880.9260.0803.5 min0.9120GB
ENDONERFLerPlane-32k [24]37.3840.9500.0478.5 min0.8720GB
ENDONERFOurs-monocular36.4290.9510.0892.0 min180.062GB
ENDONERFOurs-binocular37.8490.9630.0542.0 min195.092GB
SCAREDEndoNeRF [22]24.3450.7680.3133.5 hours0.0222GB
SCAREDEndoSurf [27]25.0200.8020.3565.8 hours0.0122GB
SCAREDOurs-monocular23.4770.7440.4895.01 min175.633GB
SCAREDOurs-binocular27.0420.8270.2672.15 min181.202GB
  • リアルタイムレンダリングを約195 FPS(双眼入力)で達成し、従来手法より約100倍の速度向上を実現。
  • ENDONERF で 37.849 PSNR の強い再構成品質を示し、SSIM/LPIPS でベースラインと比較して競争力を示す。
  • 1 シーンあたり約2分のトレーニング時間、RTX 4090 でのメモリ使用量は約 2 GB。
  • Holistic initialization は速度と最終品質の両方で COLMAP およびランダム初期化を上回る。
  • 分解された encoding voxel と軽量デコーダーを用いた Spatio-temporal Gaussian Tracking はオーバーヘッドを抑えつつ効果的な変形モデリングを実現。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。