[論文レビュー] Probabilistic Learning and Generation in Deep Sequence Models
確率的ベイズ法と深層系列モデルを統合したPhD論文。 Sparse Gaussian Process attention、HiPPOメモリを用いたオンライン間ドメインGaussian Processes、自己-supervised latent signalsを導入し、系列生成モデルを向上させる。
Despite exceptional predictive performance of Deep sequence models (DSMs), the main concern of their deployment centers around the lack of uncertainty awareness. In contrast, probabilistic models quantify the uncertainty associated with unobserved variables with rules of probability. Notably, Bayesian methods leverage Bayes' rule to express our belief of unobserved variables in a principled way. Since exact Bayesian inference is computationally infeasible at scale, approximate inference is required in practice. Two major bottlenecks of Bayesian methods, especially when applied in deep neural networks, are prior specification and approximation quality. In Chapter 3 & 4, we investigate how the architectures of DSMs themselves can be informative for the design of priors or approximations in probabilistic models. We first develop an approximate Bayesian inference method tailored to the Transformer based on the similarity between attention and sparse Gaussian process. Next, we exploit the long-range memory preservation capability of HiPPOs (High-order Polynomial Projection Operators) to construct an interdomain inducing point for Gaussian process, which successfully memorizes the history in online learning. In addition to the progress of DSMs in predictive tasks, sequential generative models consisting of a sequence of latent variables are popularized in the domain of deep generative models. Inspired by the explicit self-supervised signals for these latent variables in diffusion models, in Chapter 5, we explore the possibility of improving other generative models with self-supervision for their sequential latent states, and investigate desired probabilistic structures over them. Overall, this thesis leverages inductive biases in DSMs to design probabilistic inference or structure, which bridges the gap between DSMs and probabilistic models, leading to mutually reinforced improvement.
研究の動機と目的
- 深層系列モデルにおける帰納的バイアスを活用して、確率推論と構造を設計する。
- Transformerアーキテクチャの不確実性を較正する方法を開発する。
- HiPPO発想のインタードメインGaussian Processesを用いてオンライン学習で長期履歴を記憶する。
- 潜在状態上の自己監視信号を調べ、系列生成モデルを改善する。
提案手法
- Scaled dot-product attentionをSparse Gaussian Process Attention (SGPA)に置換してTransformerを較正する。
- 注意をSparse Variational Gaussian Processの平均として表現し、デカップリングしたSGPA版で非効率性を解決する。
- オンライン/継続学習設定で長期記憶を捉えるOnline HiPPO Sparse Variational Gaussian Process (OHSVGP)を導入する。
- HiPPOをインタードメイン促進変数として拡張し、カーネル行列をODE進化によりオンラインで更新する。
- 自己-supervised信号を潜在状態へ注入するために疑似動画生成を探る。
実験結果
リサーチクエスチョン
- RQ1Transformerの注意機構を確率的なガウス過程の後方分布に基づいて grounded することで較正と堅牢性を向上させられるか。
- RQ2HiPPOメモリを備えたオンラインスパースGPは系列データと継続学習で長期情報を保持できるか。
- RQ3疑似動画からの自己-supervised信号は系列生成モデルの潜在状態表現を改善するか。
主な発見
- SGPAベースのTransformerは、競争的な精度を維持しつつ、不確実性の較正と分布外データ処理の頑健性を向上させる。
- オンラインHiPPOスパース変分GPは、オンラインおよび継続学習タスクで長期記憶と効率を改善する。
- インタードメインHiPPO誘導点はオンラインカーネル更新を可能にし、時間を越えたGPメモリを拡張する。
- 自己-supervisedな疑似動画は、VQ-VAEや拡散モデルのような系列生成モデルの再構成と生成を改善する。
- 第5章では、疑似動画からの自己-supervised信号で潜在状態を豊かにすると、CIFAR10とCelebAにおける再構成と生成性能が向上することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。