QUICK REVIEW

[論文レビュー] Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction

Bowen Shi, Wei-Ning Hsu|arXiv (Cornell University)|Jan 5, 2022

Speech and Audio Processing被引用数 113

ひとこと要約

AV-HuBERT は、マルチモーダル入力をマスクし、反復的に精練されたマルチモーダルクラスタターゲットを予測することにより、自己監督的な音声-視覚表現を学習し、従来より少ないラベル付きデータで最先端のリップリーディングとASRを達成します。

ABSTRACT

Video recordings of speech contain correlated audio and visual information, providing a strong signal for speech representation learning from the speaker's lip movements and the produced sound. We introduce Audio-Visual Hidden Unit BERT (AV-HuBERT), a self-supervised representation learning framework for audio-visual speech, which masks multi-stream video input and predicts automatically discovered and iteratively refined multimodal hidden units. AV-HuBERT learns powerful audio-visual speech representation benefiting both lip-reading and automatic speech recognition. On the largest public lip-reading benchmark LRS3 (433 hours), AV-HuBERT achieves 32.5% WER with only 30 hours of labeled data, outperforming the former state-of-the-art approach (33.6%) trained with a thousand times more transcribed video data (31K hours). The lip-reading WER is further reduced to 26.9% when using all 433 hours of labeled data from LRS3 and combined with self-training. Using our audio-visual representation on the same benchmark for audio-only speech recognition leads to a 40% relative WER reduction over the state-of-the-art performance (1.3% vs 2.3%). Our code and models are available at https://github.com/facebookresearch/av_hubert

研究の動機と目的

動画データにおける相関する音声とリップ視覚の手がかりから、音声表現を学習する動機付け。
音声と視覚ストリームを統合して頑健で転移可能な音声表現を学習する自己教師ありフレームワークを開発する。
リップリーディングの大規模なラベル付きコーパスへの依存を減らしつつ、下流のASR性能を向上させる。

提案手法

AV-HuBERT を導入する。音声と視覚ストリームの両方をマスクし、クラスタ割り当てを予測するマルチモーダルエンコーダ。
モダリティ特異的エンコーダと共有トランスフォーマー骨格を用いてモダリティを融合する。
特徴量（例：MFCC）をクラスタリングしてターゲットクラスタを反復的に精練し、学習済みAV特徴を用いて再クラスタリングする。
視覚フレームを impostor セグメントで置換するマスキング戦略を適用し、より難しい予測課題を作成する。
音声優位の解を防ぐためのモダリティドロップアウトを組み込み、単一モダリティの微調整と事前学習を橋渡しする。
CTC または S2S ロスで微調整する；リップリーディングとASRの性能を評価する；擬似ラベルを用いた自己学習を検討する。

実験結果

リサーチクエスチョン

RQ1限定的なラベル付きデータで訓練した場合、自己教師ありのマルチモーダル音声モデルはリップリーディングを改善できるか？
RQ2マルチモーダルターゲット（音声-視覚）は、リップリーディングとASRのために単一モダリティのターゲットよりもより転用可能な表現を生み出すのか？
RQ3モダリティドロップアウトと提案されたマスキング戦略が頑健なAV音声表現の学習に与える影響は？
RQ4多言語対単言語の事前学習設定、およびASR下流タスクにおけるAV-HuBERTの性能はどうなるか？

主な発見

AV-HuBERT は LRS3 で 30 時間のラベル付きデータのみで 32.5% WER を達成し、約31K 時間の逐次転写データで訓練された 33.6% WER のモデルを上回る。
LRS3 の全433時間を事前学習と微調整に用いるとリップリーディングのWERが28.6%に低下する。
AV-HuBERTと自己学習を組み合わせ、433時間と30時間のラベルデータでリップリーディングの新しいSOTAである26.9% WERを達成。
ASRでは、AV-HuBERT 由来のターゲットで audio-HuBERT を事前学習すると LRS3 で 1.3% WER (S2S) を達成し、外部LMなしの従来の最先端を上回る。
AV-HuBERT の事前学習（マルチモーダルターゲット）は、単一モダリティの視覚または音声ターゲットと比較してリップリーディングとASRを改善し、音声-視覚特徴により推定されたターゲットが最良の結果を生む。
事前学習データが多言語であってもアプローチは有効であるが、言語ドメインの整合性が利得に影響する。ドメイン一致の事前学習データが有利だ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。