[论文解读] SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German
SwissDial 是首个公开可用的口语瑞士德语并行多方言语料库,涵盖八种地区方言和标准德语的文本与音频数据。本文详细介绍了通过网络爬取的高地德语句子、人工方言翻译以及专业音频录制的方式收集该语料库,并通过成功的神经语音合成实验验证了其有效性,包括单说话人、多方言及语码转换设置,均获得了高质量的 MOS 评分。
Swiss German is a dialect continuum whose natively acquired dialects significantly differ from the formal variety of the language. These dialects are mostly used for verbal communication and do not have standard orthography. This has led to a lack of annotated datasets, rendering the use of many NLP methods infeasible. In this paper, we introduce the first annotated parallel corpus of spoken Swiss German across 8 major dialects, plus a Standard German reference. Our goal has been to create and to make available a basic dataset for employing data-driven NLP applications in Swiss German. We present our data collection procedure in detail and validate the quality of our corpus by conducting experiments with the recent neural models for speech synthesis.
研究动机与目标
- 为解决瑞士德语方言缺乏高质量、已标注、低资源数据集的问题,该问题阻碍了数据驱动的自然语言处理应用。
- 创建一个标准化的、涵盖八种主要方言和标准德语的口语瑞士德语并行语料库,实现文本与音频的对齐。
- 支持在低资源方言设置下,端到端神经语音合成模型及其他自然语言处理任务的开发与评估。
- 通过精心筛选的高质量数据集,支持语码转换、方言识别及迁移学习等研究。
提出的方法
- 从新闻文章和维基百科中随机收集高地德语句子,以确保话题多样性和词汇覆盖范围。
- 通过爬取词汇列表识别方言特有的词汇差异,并提取包含这些词汇的句子,以增强方言表征的准确性。
- 聘请来自各方言区域的母语者,将高地德语句子手动翻译为相应的瑞士德语方言。
- 使用每种方言的单一专业说话人录制每条方言翻译的音频,通过受控录音会话确保发音一致性。
- 进行后期处理:标准化文本中的数字拼写,并通过去除非语音噪音及下采样至 22.05 kHz 清理音频。
- 使用字符级输入训练并评估神经语音合成模型,包括单说话人、多说话人-多方言及语码转换扩展设置。
实验结果
研究问题
- RQ1能否系统性地构建一个具有高语言质量和音频质量的口语瑞士德语并行多方言语料库?
- RQ2SwissDial 在低资源方言设置下,对端到端神经语音合成模型的支持程度如何?
- RQ3SwissDial 在训练多方言及语码转换语音合成模型方面效果如何?
- RQ4能否通过高地德语数据的迁移学习提升瑞士德语方言的语音合成性能?
主要发现
- 单说话人语音合成模型在各方言中的平均意见得分(MOS)范围为 2.90 至 4.12,表明尽管使用非专业说话人,其自然度和质量仍可接受。
- 多说话人-多方言模型在语音质量和自然度方面与单说话人模型相当,证明了方言间有效的容量共享。
- 语码转换模型在 247 个英-瑞士德语混合语句上微调后,BE 方言样本的 MOS 达到 3.92 ± 0.58,表明语言混合时质量下降极小。
- 后期处理成功去除了背景噪音并标准化了音频,使数据可稳定用于语音合成实验。
- 该语料库支持迁移学习,即在高地德语数据上预训练可提升低资源瑞士方言的微调性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。