QUICK REVIEW

[论文解读] MelNet: A Generative Model for Audio in the Frequency Domain

Sean Vasquez, Mike Lewis|arXiv (Cornell University)|Jun 4, 2019

Music and Audio Processing参考文献 50被引用 111

一句话总结

MelNet 通过对高分辨率声谱进行多尺度自回归二维时频模型建模来生成高保真音频，能够进行无条件的语音/音乐生成以及端到端文本到语音。它在捕捉长程结构和保真方面优于先前的时域模型。

ABSTRACT

Capturing high-level structure in audio waveforms is challenging because a single second of audio spans tens of thousands of timesteps. While long-range dependencies are difficult to model directly in the time domain, we show that they can be more tractably modelled in two-dimensional time-frequency representations such as spectrograms. By leveraging this representational advantage, in conjunction with a highly expressive probabilistic model and a multiscale generation procedure, we design a model capable of generating high-fidelity audio samples which capture structure at timescales that time-domain models have yet to achieve. We apply our model to a variety of audio generation tasks, including unconditional speech generation, music generation, and text-to-speech synthesis---showing improvements over previous approaches in both density estimates and human judgments.

研究动机与目标

在频域对音频建模，以比时域波形更可控地捕捉长程相关性。
开发一种在高分辨率声谱上表达能力强的自回归模型，以减少信息损失和过平滑。
提出一种多尺度（粗到细）生成过程，以在音频中共同捕捉局部细节和全局结构。
证明其在无条件语音、音乐生成和端到端文本到语音中的广泛适用性。

提出的方法

将声谱图建模为条件分布的乘积，对每个声谱图元素使用高斯混合模型。
用一个以前序上下文为条件的神经网络参数化每个条件分布。
使用一个两栈自回归网络：time-delayed 栈（捕获早期帧的信息）和 frequency-delayed 栈（捕获帧内历史及来自 time-delayed 栈的输出）。
可选地包括一个集中栈及文本/说话人输入的条件化机制。
采用多尺度生成方法，将声谱图划分为若干层（x1,…,xG），按粗到细的顺序生成，且各层之间条件化交错。
训练使用递归层分割（按时间或频率分割）和层特定网络；采样时交错生成的层以形成完整的声谱图。
通过学习对齐（基于位置的注意力）在声谱图帧和字符序列之间实现端到端文本到语音的条件化。

实验结果

研究问题

RQ1使用一个全自回归、二维时频模型对高分辨率声谱图建模，是否能够捕捉到超越时域模型所达到的长程音频结构？
RQ2相较于单尺度自回归声谱模型，多尺度（粗到细）生成是否提高保真度并降低过平滑？
RQ3MelNet 是否在无条件的语音、音乐生成以及端到端文本到语音生成方面具有广泛适用性？在密度估计和人类评估方面，它相对于基于波形的基线表现如何？
RQ4在此框架内通过学习声谱图与文本之间的对齐是否可以实现端到端 TTS？

主要发现

MelNet 在长样本的人类评估中，生成语音和音乐的连贯长程结构能力优于 WaveNet 基线。
在无条件任务中，MelNet 生成的样本在单一说话人、多说话人和钢琴音乐数据中具有一致的韵律和语音特征。
在端到端 TTS 设置中，MelNet 可以执行多说话人合成并捕捉在文本和说话人输入条件下的多模态发声表现。
定性结果显示，MelNet 能在经过提示的序列中保持说话人特征，并在 VoxCeleb2 数据中生成说话风格和噪声条件的变体。
多尺度生成过程使得高分辨率声谱图在保留全局结构的同时具有细节级别的保真度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。