Skip to main content
QUICK REVIEW

[論文レビュー] Tune-Your-Style: Intensity-tunable 3D Style Transfer with Gaussian Splatting

Yian Zhao, Rushi Ye|arXiv (Cornell University)|Jan 31, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

Intensity-tunable 3D style transfer using Gaussian splatting、Gaussianニューロンと学習可能なスタイルチューナーを用いたスタイル強度のモデリング、および拡散ガイド付き可変スタイリゼーションによる多視点一貫性の実現。

ABSTRACT

3D style transfer refers to the artistic stylization of 3D assets based on reference style images. Recently, 3DGS-based stylization methods have drawn considerable attention, primarily due to their markedly enhanced training and rendering speeds. However, a vital challenge for 3D style transfer is to strike a balance between the content and the patterns and colors of the style. Although the existing methods strive to achieve relatively balanced outcomes, the fixed-output paradigm struggles to adapt to the diverse content-style balance requirements from different users. In this work, we introduce a creative intensity-tunable 3D style transfer paradigm, dubbed extbf{Tune-Your-Style}, which allows users to flexibly adjust the style intensity injected into the scene to match their desired content-style balance, thus enhancing the customizability of 3D style transfer. To achieve this goal, we first introduce Gaussian neurons to explicitly model the style intensity and parameterize a learnable style tuner to achieve intensity-tunable style injection. To facilitate the learning of tunable stylization, we further propose the tunable stylization guidance, which obtains multi-view consistent stylized views from diffusion models through cross-view style alignment, and then employs a two-stage optimization strategy to provide stable and efficient guidance by modulating the balance between full-style guidance from the stylized views and zero-style guidance from the initial rendering. Extensive experiments demonstrate that our method not only delivers visually appealing results, but also exhibits flexible customizability for 3D style transfer. Project page is available at https://zhao-yian.github.io/TuneStyle.

研究の動機と目的

  • 3Dスタイル転写における固定出力の制約を克服し、ユーザーがコンテンツとスタイルのバランスを制御できるようにする。
  • スタイル強度を明示的にモデリングし、3Dガウス分散されたシーンへスタイルを注入する可変メカニズムを提供する。
  • クロスビューのスタイル整合と拡散ガイドを通じて多視点の一貫性を達成する。
  • チューニング可能なスタイリゼーションを安定させつつ効率を保つ2段階最適化戦略を提案する。

提案手法

  • シーンを3Dガウス原始体として表現し、3D Gaussian Splatting (3DGS)でレンダリングする。
  • 各ガウス原始体のスタイル強度に対する属性オフセットを予測するためにGaussianニューロンを導入する。
  • 連続的なチューナ入力を離散的埋め込みへ写像する階段関数を用いた tunable style injector を定義する。
  • 冗長な原始体を除去しアーティファクトを低減するために3D Gaussianフィルタを適用する。
  • レンダリングされたビューをスタイル化するために2D拡散モデルを使用し、クロ_view alignmentを通じて3D更新をガイドする。
  • 完全スタイルガイダンスとゼロスタイルおよび完全スタイル項を含むチューニング可能ガイダンスの2段階最適化を実装する。
  • クロスビューのスタイル整合はアンカービューの特徴を注入し、3Dの一貫性を維持するコンテンツ較正を実行する。
Figure 1 : (a) Existing fixed-output paradigm struggles to adapt to the diverse content-style balance requirements. (b) Our intensity-tunable 3D style transfer paradigm enables users to flexibly adjust the style intensity to achieve the desired content-style balance.
Figure 1 : (a) Existing fixed-output paradigm struggles to adapt to the diverse content-style balance requirements. (b) Our intensity-tunable 3D style transfer paradigm enables users to flexibly adjust the style intensity to achieve the desired content-style balance.

実験結果

リサーチクエスチョン

  • RQ13Dスタイル転写におけるスタイル強度をどのようにモデリング・制御するか。
  • RQ2強度チューニング可能なフレームワークは固定出力法と比べてコンテンツ・スタイルのバランスを改善するか。
  • RQ3拡散ベースの事前知識とクロスビュー整合は3Dシーンの安定した多視点一貫性のあるスタイリゼーションを提供できるか。
  • RQ42段階ガイダンス戦略がスタイリゼーション品質とチューニング性に与える影響は。

主な発見

MethodShort-range Consistency (LPIPS/RMSE)Long-range Consistency (LPIPS/RMSE)CLIP SCLIP S_dirUser Study
StyleGaussian0.067 / 0.0700.126 / 0.1080.21340.22232.79 ± 0.16
G-Style0.044 / 0.0590.093 / 0.0960.24060.23913.10 ± 0.40
InstantStyleGaussian0.053 / 0.0620.108 / 0.1130.22040.21602.06 ± 0.22
Ours0.033 / 0.0350.062 / 0.0670.26190.28813.97 ± 0.13
  • 提案手法はベースラインと比較して多視点一貫性が優れており(短距離LPIPS/RMSEおよび長距離LPIPS/RMSE測定で)。
  • CLIPベースのスタイル適合度指標(CLIP SおよびCLIP S_dir)は提案手法がベースラインより高い。
  • ユーザ調査で提案手法が好意的で、全体的な好みと視覚的魅力が高い。
  • 強度のチューニングはコンテンツとスタイルのバランスを柔軟に制御可能であり、定性的結果および複数スタイルの組み合わせで示された。
  • 2段階最適化は安定したスタイリゼーションとスタイルチューナーの効果的な学習に不可欠である。
Figure 2 : Overall framework. Our method comprise two pivotal components, namely Intensity-tunable Style Injection (ISI) and Tunable Stylization Guidance (TSG). ISI introduces Gaussian neurons to explicitly model style intensity and parameterizes a learnable style tuner, enabling users to flexibly a
Figure 2 : Overall framework. Our method comprise two pivotal components, namely Intensity-tunable Style Injection (ISI) and Tunable Stylization Guidance (TSG). ISI introduces Gaussian neurons to explicitly model style intensity and parameterizes a learnable style tuner, enabling users to flexibly a

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。