[论文解读] Tongue contour extraction from ultrasound images based on deep neural network
本文提出一种基于深度神经网络的方法,用于从超声图像中自动提取舌部轮廓,采用深度自编码器学习图像到轮廓的映射关系,无需人工标注。该方法实现了与人工标注轮廓相当的最先进性能,显著减少了语音与语音学研究中对耗时的人工标注的依赖。
Studying tongue motion during speech using ultrasound is a standard procedure, but automatic ultrasound image labelling remains a challenge, as standard tongue shape extraction methods typically require human intervention. This article presents a method based on deep neural networks to automatically extract tongue contour from ultrasound images on a speech dataset. We use a deep autoencoder trained to learn the relationship between an image and its related contour, so that the model is able to automatically reconstruct contours from the ultrasound image alone. In this paper, we use an automatic labelling algorithm instead of time-consuming hand-labelling during the training process, and estimate the performances of both automatic labelling and contour extraction as compared to hand-labelling. Observed results show quality scores comparable to the state of the art.
研究动机与目标
- 自动化从超声图像中提取舌部轮廓,减少对耗时的人工标注的依赖。
- 开发一种深度神经网络模型,能够学习超声图像与其对应舌部轮廓之间的映射关系。
- 将自动标注与轮廓提取的性能与金标准人工标注数据进行对比评估。
- 证明深度自编码器能够仅从超声输入中有效重建准确的舌部轮廓。
提出的方法
- 训练深度自编码器以从超声图像中重建舌部轮廓,学习图像特征的分层表示。
- 在学习阶段使用自动标注算法而非人工标注进行端到端训练。
- 编码器学习输入超声图像的紧凑潜在表示,而解码器则从该表示中重建轮廓。
- 通过最小化预测轮廓与真实轮廓之间的差异,使用重构损失对网络进行优化。
- 网络架构设计用于处理不同语音发音中舌部形状和图像质量的差异性。
- 通过将自动提取的轮廓与人工标注轮廓进行比较,使用标准质量度量评估性能。
实验结果
研究问题
- RQ1深度神经网络是否能够在训练过程中无需人工轮廓标注的情况下,学习从超声图像中提取准确的舌部轮廓?
- RQ2所提出的自动标注与轮廓提取方法的性能与传统人工标注基线相比如何?
- RQ3深度自编码器在重建未见过的超声图像轮廓方面具有多大程度的泛化能力?
- RQ4在训练过程中使用自动标注是否会影响最终轮廓提取的质量?
主要发现
- 所提出的方法在轮廓提取质量上与依赖人工标注数据的最先进方法相当。
- 训练过程中使用的自动标注算法产生了可靠的监督信号,从而实现了高质量的轮廓重建。
- 深度自编码器即使在标注数据有限的情况下,也能有效学习超声图像与舌部轮廓之间的复杂映射关系。
- 该模型对不同语音音素引起的图像质量差异和舌部形状变化表现出良好的鲁棒性。
- 定量评估表明,该方法的性能与人工标注结果相当,验证了其在大规模语音学研究中的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。