Skip to main content
QUICK REVIEW

[논문 리뷰] Probabilistic Learning and Generation in Deep Sequence Models

Chen, Wenlong|arXiv (Cornell University)|2026. 03. 01.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

확률적 베이지안 방법을 딥 시퀀스 모델과 통합한 PhD 논문으로, Sparse Gaussian Process Attention(SGPA), HiPPO 메모리를 갖춘 온라인 인터도메인 가우시안 프로세스, 그리고 자기지도(Self-supervised) 잠재 신호를 도입하여 시퀀스 생성 모델을 향상시킨다.

ABSTRACT

Despite exceptional predictive performance of Deep sequence models (DSMs), the main concern of their deployment centers around the lack of uncertainty awareness. In contrast, probabilistic models quantify the uncertainty associated with unobserved variables with rules of probability. Notably, Bayesian methods leverage Bayes' rule to express our belief of unobserved variables in a principled way. Since exact Bayesian inference is computationally infeasible at scale, approximate inference is required in practice. Two major bottlenecks of Bayesian methods, especially when applied in deep neural networks, are prior specification and approximation quality. In Chapter 3 & 4, we investigate how the architectures of DSMs themselves can be informative for the design of priors or approximations in probabilistic models. We first develop an approximate Bayesian inference method tailored to the Transformer based on the similarity between attention and sparse Gaussian process. Next, we exploit the long-range memory preservation capability of HiPPOs (High-order Polynomial Projection Operators) to construct an interdomain inducing point for Gaussian process, which successfully memorizes the history in online learning. In addition to the progress of DSMs in predictive tasks, sequential generative models consisting of a sequence of latent variables are popularized in the domain of deep generative models. Inspired by the explicit self-supervised signals for these latent variables in diffusion models, in Chapter 5, we explore the possibility of improving other generative models with self-supervision for their sequential latent states, and investigate desired probabilistic structures over them. Overall, this thesis leverages inductive biases in DSMs to design probabilistic inference or structure, which bridges the gap between DSMs and probabilistic models, leading to mutually reinforced improvement.

연구 동기 및 목표

  • 딥 시퀀스 모델에서 귀납 편향을 활용하여 확률적 추론과 구조를 설계한다.
  • Transformer 아키텍처의 불확실성 보정 방법을 개발한다.
  • HiPPO 영감을 받은 인터도메인 가우시안 프로세스를 사용하여 온라인 학습에서 장기 히스토리를 기억한다.
  • 잠재 상태에 대한 자기지도 신호를 조사하여 순차 생성 모델을 개선한다.

제안 방법

  • Scaled dot-product attention을 Sparse Gaussian Process Attention(SGPA)로 대체하여 Transformer를 보정한다.
  • attention을 Sparse Variational Gaussian Process의 평균으로 표현하고 비효율성을 decoupled SGPA 변형으로 해결한다.
  • 온라인/연속 학습 설정에서 장기 기억을 포착하기 위해 Online HiPPO Sparse Variational Gaussian Process(OHSVGP)를 도입한다.
  • HiPPO를 인터도메인 유도 변수로 확장하고 커널 행렬을 ODE 진화를 통해 온라인으로 업데이트한다.
  • 순차 생성 모델의 잠재 상태에 자기지도 신호를 주입하기 위해 가짜 비디오 생성을 탐구한다.

실험 결과

연구 질문

  • RQ1트랜스포머의 어텐션을 확률적 가우시안 프로세스 포스트eri오로 근거를 두고 보정성과 강건성을 향상시킬 수 있는가?
  • RQ2HiPPO 메모리와 함께하는 온라인 희소 GP가 순차 데이터와 지속적 학습에서 장기 정보를 보존할 수 있는가?
  • RQ3가짜 비디오로부터의 자기지도 신호가 순차 생성 모델의 잠재 상태 표현을 개선하는가?

주요 결과

  • SGPA 기반 Transformer는 불확실성 보정 및 OOD 강건성을 유지하면서도 정확도 경쟁력을 유지한다.
  • Online HiPPO 희소 변분 GP는 온라인 및 지속 학습 과제에서 향상된 장기 기억과 효율성을 제공한다.
  • 인터도메인 HiPPO 유도 포인트는 온라인 커널 업데이트를 가능하게 하고 시간에 걸친 GP 기억을 확장한다.
  • 자기지도 가짜 비디오는 VQ-VAE 및 확산 기반 접근법과 같은 순차 생성 모델의 재구성 및 생성을 개선한다.
  • 5장에서는 가짜 비디오로부터 얻은 자기지도 신호로 잠재 상태를 풍부하게 하면 CIFAR10 및 CelebA에서 재구성 및 생성 성능이 향상된다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.