Skip to main content
QUICK REVIEW

[论文解读] SpeechBrain: A General-Purpose Speech Toolkit

Mirco Ravanelli, Titouan Parcollet|arXiv (Cornell University)|Jun 8, 2021
Speech Recognition and Synthesis参考文献 107被引用 512
一句话总结

SpeechBrain 是一个开源的全功能 PyTorch 基于工具包,支持多种语音处理任务,提供现成的模型、方案和教程,以加速研究与复现。

ABSTRACT

SpeechBrain is an open-source and all-in-one speech toolkit. It is designed to facilitate the research and development of neural speech processing technologies by being simple, flexible, user-friendly, and well-documented. This paper describes the core architecture designed to support several tasks of common interest, allowing users to naturally conceive, compare and share novel speech processing pipelines. SpeechBrain achieves competitive or state-of-the-art performance in a wide range of speech benchmarks. It also provides training recipes, pretrained models, and inference scripts for popular speech datasets, as well as tutorials which allow anyone with basic Python proficiency to familiarize themselves with speech technologies.

研究动机与目标

  • 倡导一个单一、灵活的工具包,以加速跨越多种语音任务的研究(ASR、说话人识别/分离、增强、分离、SLU 等)。
  • 提供简单、模块化的设计,保持易用、文档完善、便于学习者和从业者学习的特性。
  • 在广泛的语音基准数据集上展示具有竞争力或SotA的性能,并提供易用的训练配方与预训练模型。
  • 通过透明的训练管道、数据集和可获取的实验产物来促进可复现性。

提出的方法

  • 将 Brain 作为一个通用训练循环引入,具有模块化的 PyTorch 组件和控制反转的训练工作流。
  • 使用 HyperPyYAML 从 YAML 中声明并实例化超参数和对象,以提高可读性与可重复性。
  • 实现 DynamicItemDataset 和基于数据清单的加载系统,以处理变长语音和可扩展的流水线。
  • 在训练期间支持在线特征生成以及可微分的波形/数据增强。
  • 支持多GPU和混合精度训练,支持基于 WebDataset 的大规模实验,并提供用于提高效率的 JIT 编译。
  • 提供覆盖多种语音任务的现成模型、方案和教程,便于快速试验与比较。

实验结果

研究问题

  • RQ1一个单一、多任务的工具包是否能够在保持竞争力的性能和易扩展性的同时,支持多样的语音任务?
  • RQ2如何以可读、可复用的方式组合超参数和模型以加速试验?
  • RQ3在统一框架中,哪些流水线设计可以实现对变长语音数据的高效训练与评估?
  • RQ4现成的可用配方与预训练模型在多任务中帮助研究者复现SotA结果的程度如何?

主要发现

  • SpeechBrain 在多项任务上实现了具有竞争力的或 SotA 的性能(例如:TIMIT 的 PER 13.8% 无额外数据;LibriSpeech test-clean 的 WER 2.46% 采用 transformer+ContextNet 前端;多个语言的 Common Voice 在若干情形接近 SotA)。
  • SpeechBrain 中的 ECAPA-TDNN 嵌入实现了强劲的说话人验证性能,在 VoxCeleb 上的 EER 低至 0.81%,并且在 VoxCeleb 上借助开源工具获得了 SotA 结果。
  • 在 AMI 的分段/分离任务中,当说话人数量已知时,SpeechBrain 的嵌入优于最近的元学习和 VBx 基线;当数量未知时,仍具竞争力。
  • 在语音增强方面,SpeechBrain 在 VoiceBank-DEMAND 基准上实现 SotA 的 PESQ 和 COVL 指标,在某些设置下可使用 Mimic Loss 与 MetricGAN+ 达到或超越专用模型如 DEMUCS 的结果。
  • Brain 训练循环和 HyperPyYAML 使训练脚本变得简洁(一个简单模型大约十行)并可直接覆盖超参数以进行实验。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。