[论文解读] Disentangled Sequential Autoencoder
一个学习序列的解缠表征的变分自编码器,通过将时间不变的内容与时间变化的动力学分离,实现对视频和音频的受控生成和特征交换。
We present a VAE architecture for encoding and generating high dimensional sequential data, such as video or audio. Our deep generative model learns a latent representation of the data which is split into a static and dynamic part, allowing us to approximately disentangle latent time-dependent features (dynamics) from features which are preserved over time (content). This architecture gives us partial control over generating content and dynamics by conditioning on either one of these sets of features. In our experiments on artificially generated cartoon video clips and voice recordings, we show that we can convert the content of a given sequence into another one by such content swapping. For audio, this allows us to convert a male speaker into a female speaker and vice versa, while for video we can separately manipulate shapes and dynamics. Furthermore, we give empirical evidence for the hypothesis that stochastic RNNs as latent state models are more efficient at compressing and generating long sequences than deterministic ones, which may be relevant for applications in video compression.
研究动机与目标
- 激发在高维序列数据(视频/音频)中学习解缠表示的动机。
- 提出一个将时间不变的内容与时间变化的动态分离的生成模型。
- 实现可控序列生成和特征交换(内容或动态)。
- 提供实证证据表明随机潜在动态能提升长序列建模和压缩。
- 展示在无监督条件下对视频和语音数据的应用。
提出的方法
- 提出一个基于VAE的生成模型,包含全局内容潜变量f和每帧的动力学潜变量z_t。
- Define p_theta(x_{1:T}, z_{1:T}, f) = p(f) prod_t p(z_t|z_{<t}) p(x_t|z_t, f).
- 使用带两种编码器设计的近似变分推断:因式分解的q和全q,以逼近 q(z_{1:T}, f|x_{1:T}).
- 通过将生成条件化为f或z_{1:T},并在序列之间交换特征,探索内容-动态的解缠。
- 展示无条件生成和包含内容交换的有条件生成(例如:语音转换、身份与姿态)。
- 将随机潜在动态与基于确定性RNN的动态在长序列生成与重建方面进行比较。
实验结果
研究问题
- RQ1潜变量模型是否能够在序列中将时间不变的内容与时间变化的动态解缠?
- RQ2在视频与音频中,对内容或动态进行条件化是否能够实现可控生成和特征交换?
- RQ3与确定性动态相比,逐帧随机潜在动态是否能改善长序列的重建和真实感?
- RQ4所学习的内容因子f能否在跨序列中作为稳健的说话人/身份或对象身份表示?
- RQ5在没有显式标签的情况下,该模型在视频和语音数据上的无监督解缠表现如何?
主要发现
- 该模型实现了内容与动态的交换,使生成序列中的身份和运动可控。
- 在采样固定内容时,静态属性(身份)随时间保持不变,而动态可以独立变化。
- 在序列之间交换f可生成具有交换内容的新序列,同时保持动态,反之亦然。
- 在Sprite视频数据上,该方法保持头发颜色和衣着等静态属性随时间不变,同时允许动作多样化;动作轨迹显示出多模态性并能泛化到未见案例。
- 在TIMIT语音数据中,该模型通过交换内容潜变量实现语音转换,产生对应说话人变化的移位高谐波的声谱图,并达到具有竞争力的说话人验证性能。
- 与确定性LSTM基于动态相比,逐帧的随机潜在动态在长序列中更好地保留形状和物理规律,并在缺帧时提高重建/预测质量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。