QUICK REVIEW

[论文解读] Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction

Bowen Shi, Wei-Ning Hsu|arXiv (Cornell University)|Jan 5, 2022

Speech and Audio Processing被引用 113

一句话总结

AV-HuBERT 通过屏蔽多模态输入并迭代地预测细化的多模态簇目标来学习自监督的音视频语音表征，在使用显著更少的标注数据的情况下实现了最先进的唇读和ASR。

ABSTRACT

Video recordings of speech contain correlated audio and visual information, providing a strong signal for speech representation learning from the speaker's lip movements and the produced sound. We introduce Audio-Visual Hidden Unit BERT (AV-HuBERT), a self-supervised representation learning framework for audio-visual speech, which masks multi-stream video input and predicts automatically discovered and iteratively refined multimodal hidden units. AV-HuBERT learns powerful audio-visual speech representation benefiting both lip-reading and automatic speech recognition. On the largest public lip-reading benchmark LRS3 (433 hours), AV-HuBERT achieves 32.5% WER with only 30 hours of labeled data, outperforming the former state-of-the-art approach (33.6%) trained with a thousand times more transcribed video data (31K hours). The lip-reading WER is further reduced to 26.9% when using all 433 hours of labeled data from LRS3 and combined with self-training. Using our audio-visual representation on the same benchmark for audio-only speech recognition leads to a 40% relative WER reduction over the state-of-the-art performance (1.3% vs 2.3%). Our code and models are available at https://github.com/facebookresearch/av_hubert

研究动机与目标

在视频数据中利用相关的音频和唇部视觉线索来学习语音表征。
开发一个自监督框架，将音频与视觉流融合，以学习鲁棒、可迁移的语音表征。
在提高下游 ASR 性能的同时，减少对大量标注语料在唇读任务中的依赖。

提出的方法

介绍 AV-HuBERT，一种对音频和视觉流都进行屏蔽并预测簇分配的多模态编码器。
使用专门的模态编码器加上共享的 transformer 主干来融合模态。
通过对特征（如 MFCC）进行聚类并利用学习到的 AV 特征重新聚类，迭代地细化目标簇。
应用一种掩蔽策略，用假冒片段替代视觉帧，以创建更难的预测任务。
引入模态 dropout，防止音频主导的解，通过单模态微调来衔接预训练。
使用 CTC 或 S2S 损失进行微调；评估唇读和 ASR 性能；探索带伪标签的自训练。

实验结果

研究问题

RQ1当使用有限标注数据训练时，自监督的多模态语音模型是否能提升唇读？
RQ2多模态目标（音频-视觉）是否比单模态目标为唇读和 ASR 提供更具可迁移性的表征？
RQ3模态 dropout 和提出的掩蔽策略对学习鲁棒 AV 语音表征有何影响？
RQ4AV-HuBERT 在多语言 vs 单语言的预训练设置以及在 ASR 下游任务中的表现如何？

主要发现

AV-HuBERT 在 LRS3 上仅用 30 小时标注数据就达到 32.5% WER，优于在约 31K 小时转录数据上训练的模型，其 WER 为 33.6%。
在预训练和微调阶段使用全部 433 小时的 LRS3，可将唇读 WER 降至 28.6%。
将 AV-HuBERT 与自训练结合，得到新的唇读 SOTA，为 26.9% WER，数据量为 433 小时无标签和 30 小时标注数据。
在 ASR 中，用 AV-HuBERT 的目标对音频-HuBERT 进行预训练，在 LRS3 上实现 1.3% WER（S2S），超越没有外部语言模型的前沿。
AV-HuBERT 的预训练（多模态目标）相较于单模态的视觉或音频目标提升了唇读和 ASR，且由音视频特征驱动的目标获得最佳结果。
当预训练数据是多语言时，该方法仍然有效，尽管语言域对增益有影响；域匹配的预训练数据更有利。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。