[논문 리뷰] Training-Free Adaptation of Diffusion Models via Doob's $h$-Transform
논문은 비미분 가능 보상과 함께 고보상 샘플로 확산 모델을 유도하기 위한 Doob의 h-변환을 사용하는 학습 없는 추론 시점 방법 DOIT를 도입하고 수렴 보장을 제시한다.
Adaptation methods have been a workhorse for unlocking the transformative power of pre-trained diffusion models in diverse applications. Existing approaches often abstract adaptation objectives as a reward function and steer diffusion models to generate high-reward samples. However, these approaches can incur high computational overhead due to additional training, or rely on stringent assumptions on the reward such as differentiability. Moreover, despite their empirical success, theoretical justification and guarantees are seldom established. In this paper, we propose DOIT (Doob-Oriented Inference-time Transformation), a training-free and computationally efficient adaptation method that applies to generic, non-differentiable rewards. The key framework underlying our method is a measure transport formulation that seeks to transport the pre-trained generative distribution to a high-reward target distribution. We leverage Doob's $h$-transform to realize this transport, which induces a dynamic correction to the diffusion sampling process and enables efficient simulation-based computation without modifying the pre-trained model. Theoretically, we establish a high probability convergence guarantee to the target high-reward distribution via characterizing the approximation error in the dynamic Doob's correction. Empirically, on D4RL offline RL benchmarks, our method consistently outperforms state-of-the-art baselines while preserving sampling efficiency.
연구 동기 및 목표
- 사전 학습된 확산 모델을 다운스트림 작업 보상에 대해 효율적으로, 학습 없이 적응시킬 필요성에 대해 동기를 부여한다.
- 모델을 재학습하지 않고 고보상 분포를 목표로 하는 측정-이동 프레임워크를 제안한다.
- Doob’s h-transform 기반의 추론 시점 보정으로 샘플링을 원하는 결과로 유도한다.
- 실용적 근사에 대한 이론적 수렴 보장을 제공한다.
- 오프라인 RL 벤치마크에서 샘플링 효율성을 유지하면서 실험적으로 효과를 입증한다.
제안 방법
- 모델 적응을 P_theta를 고보상 조건부 분포 P_theta(·|E_barX0)로 운반하는 문제로 정의한다.
- Doob’s h-transform를 사용하여 ∇log h의 가산 보정 항으로 확산 샘플링을 E_barX0 방향으로 비틀는 샘플링 과정을 도출한다.
- Monte Carlo 롤아웃의 역방향 궤적과 플러그인 기울기 추정치를 이용한 ∇log h의 계산 가능한 시뮬레이션 기반 근사를 제공한다.
- 학습 없이 작동하고 비미분 가능 보상과 함께 작동하는 DOIT 알고리즘(프로토타입 알고리즘 1 및 실용 알고리즘 2)을 제안한다.
- 높은 보상 영역으로 비틀기 위한 실용적 h-함수 h(x,0) ∝ exp(r(x)/τ)을 도입한다.
- DOIT 출력과 목표 분포 간의 총변이 거리(TV 거리)를 MC 및 이산화 오차를 고려하여 한정하는 수렴 보장을 제시한다.

실험 결과
연구 질문
- RQ1비미분 가능 보상에 대해 학습 없이 추론 시점에 확산 모델을 적응시키는 알고리즘을 설계할 수 있는가?
- RQ2DOIT의 출력 분포가 보상에 의해 유도된 목표 분포에 수렴한다는 이론적 수렴 보장이 존재하는가?
- RQ3모델 재학습 없이 Doob 보정 항 ∇log h를 근사할 수 있는가?
- RQ4MC 근사 및 이산화가 성능과 안정성에 어떤 영향을 미치는가?
- RQ5DOIT 방법이 샘플링 효율성을 유지하면서 오프라인 RL 벤치마크에서 보상 정렬 성능을 개선하는가?
주요 결과
- DOIT는 Doob의 h-변환을 통해 확산 샘플링 과정을 높 보상 샘플로 비틀어 학습 없는 적응을 제공한다.
- 시뮬레이션 기반 방법은 타깃 고보상 분포로의 수렴에 대해 높은 확률의 보장을 제공하며 근사 오차를 정량화한다.
- 실험적으로 DOIT는 베이스라인에 비해 오프라인 RL 벤치마크에서 보상 정렬을 향상시키면서 샘플링 효율성을 유지한다.
- 실용적 버전은 대리 최종 상태 추정 및 제한된 역방향 롤아웃을 통해 계산 비용을 줄인다.
- Stable Diffusion 실험에서 DOIT는 비미분 가능 보상 설정하에서 보상 분포를 더 높은 미적 점수 쪽으로 운반한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.