[论文解读] DeepASMR: LLM-Based Zero-Shot ASMR Speech Generation for Anyone of Any Voice
DeepASMR 提出一个零样本 ASMR 语音生成框架,使用基于 LLM 的内容-风格编码器与流匹配声学解码器,能够从最少的普通语音数据为任意说话人合成 ASMR 声音,并提供大规模双语 ASMR 语料库 DeepASMR-DB。
While modern Text-to-Speech (TTS) systems achieve high fidelity for read-style speech, they struggle to generate Autonomous Sensory Meridian Response (ASMR), a specialized, low-intensity speech style essential for relaxation. The inherent challenges include ASMR's subtle, often unvoiced characteristics and the demand for zero-shot speaker adaptation. In this paper, we introduce DeepASMR, the first framework designed for zero-shot ASMR generation. We demonstrate that a single short snippet of a speaker's ordinary, read-style speech is sufficient to synthesize high-fidelity ASMR in their voice, eliminating the need for whispered training data from the target speaker. Methodologically, we first identify that discrete speech tokens provide a soft factorization of ASMR style from speaker timbre. Leveraging this insight, we propose a two-stage pipeline incorporating a Large Language Model (LLM) for content-style encoding and a flow-matching acoustic decoder for timbre reconstruction. Furthermore, we contribute DeepASMR-DB, a comprehensive 670-hour English-Chinese multi-speaker ASMR speech corpus, and introduce a novel evaluation protocol integrating objective metrics, human listening tests, LLM-based scoring and unvoiced speech analysis. Extensive experiments confirm that DeepASMR achieves state-of-the-art naturalness and style fidelity in ASMR generation for anyone of any voice, while maintaining competitive performance on normal speech synthesis.
研究动机与目标
- 弥补在 TTS 系统中生成高情感度 ASMR 语音(超越中性/阅读语音)的空白。
- 实现对任意说话人仅使用其普通语音样本的零样本 ASMR 合成。
- 探索 token 级因式分解,将 ASMR 风格与说话人音色分离。
- 提供大规模 ASMR 语料库(DeepASMR-DB)及结合客观、主观和基于 LLM 指标的鲁棒评估协议。
提出的方法
- 采用两阶段流水线:一个基于大语言模型(LLM)的文本到语义编码器和一个流式匹配声学解码器。
- 使用离散语音 token(S3)作为 ASMR 风格与音色的软分解,使风格控制在不泄露说话人身份的前提下实现。
- 训练 LLM 以从文本和提示中预测离散 token 序列,并以交叉熵损失进行优化。
- 将 token 解码为梅尔谱图,使用以 token 序列和目标说话人音色为条件的条件流匹配网络,随后进行 HiFi-GAN 噪声合成。
- 实现带有虚拟说话人池的任务提示选择器,用于跨风格合成的风格提示选择并减少音色泄漏。
- 可选地通过将生成的 ASMR 提示重新输入系统进行 2–3 次额外迭代来对输出进行细化。
实验结果
研究问题
- RQ1在 token 空间中是否可以将 ASMR 风格与说话人音色分离,以实现对未见说话人的零样本 ASMR?
- RQ2两阶段的 LLM+流式架构在控制 ASMR 风格同时保留说话人身份方面是否有效?
- RQ3与风格内或级联基线相比,零样本从 Normal 到 ASMR 的合成表现如何?
- RQ4哪种数据集与评估协议最能捕捉生成语音的 ASMR 质量与无声发声特征?
主要发现
- DeepASMR 在未见声音种语的跨语言零样本合成中,达到了自然度与 ASMR 风格保真度的最新水平。
- Token 级分析表明 ASMR 风格在语义 token 中高度编码,而残余音色可以在基于流的解码器中恢复。
- 虚拟说话人池与基于相似性的任务提示检索减轻了音色泄漏并提升跨风格合成质量。
- 在 N2A 任务中,零样本无声语音(ASMR)生成具有鲁棒的可懂度(WER/CER)与音色保留(SIM)表现。
- 结合客观指标、主观 MOS、LLM 风格评分与无声语音分析的综合评估协议,支持对 ASMR 质量的全面评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。