Skip to main content
QUICK REVIEW

[論文レビュー] Deep Multimodal Learning for Audio-Visual Speech Recognition

Youssef Mroueh, Etienne Marcheret|arXiv (Cornell University)|Jan 22, 2015
Speech and Audio Processing参考文献 15被引用数 28
ひとこと要約

本稿では、別々に訓練された単モードDNNの後期統合と、モダリティ間相関をモデル化する新しい二重線形DNNアーキテクチャを用いた、音声・視覚語彙認識のための深層マルチモーダル学習フレームワークを提案する。この手法は、IBM AV-ASRデータセットにおいて34.03%の発音誤り率(PER)を達成し、音声のみおよび統合された単モードモデルを上回る性能を示した。音声と視覚モダリティの共同モデリングにより、ノイズのない音声条件でも顕著な向上が得られることを示した。

ABSTRACT

In this paper, we present methods in deep multimodal learning for fusing speech and visual modalities for Audio-Visual Automatic Speech Recognition (AV-ASR). First, we study an approach where uni-modal deep networks are trained separately and their final hidden layers fused to obtain a joint feature space in which another deep network is built. While the audio network alone achieves a phone error rate (PER) of $41\%$ under clean condition on the IBM large vocabulary audio-visual studio dataset, this fusion model achieves a PER of $35.83\%$ demonstrating the tremendous value of the visual channel in phone classification even in audio with high signal to noise ratio. Second, we present a new deep network architecture that uses a bilinear softmax layer to account for class specific correlations between modalities. We show that combining the posteriors from the bilinear networks with those from the fused model mentioned above results in a further significant phone error rate reduction, yielding a final PER of $34.03\%$.

研究の動機と目的

  • 騒音環境に焦点を当てた先行研究とは対照的に、信号対雑音比が高いクリーンな音声条件下における視覚モダリティの有効性を検証すること。
  • 音声と視覚特徴を効果的に統合し、より良い発音分類を実現する深層学習フレームワークを開発すること。
  • 音声と視覚モダリティ間のクラス固有の相関を明示的にモデル化する二重線形DNNアーキテクチャを導入すること。
  • 二重線形DNNと統合された二モーダルネットワークからの事後確率を組み合わせることで、誤り相関の低減を実現し、誤り率のさらなる低減を示すこと。

提案手法

  • 音声および視覚モダリティそれぞれに別々に深層ニューラルネットワーク(DNN)を訓練し、最終的な隠れ層表現を統合して共同分類を実行する。
  • 音声と視覚特徴間の相互作用をテンソル積を介してモデル化する二重線形ソフトマックス層を導入し、モダリティ間相関の共同学習を可能にする。
  • 二重線形層を通じたモダリティ間のメッセージパッシング項を含むバックプロパゲーションアルゴリズムを導出することで、勾配の流れと重みの更新を可能にする。
  • 音声特徴のためのMFCCおよび視覚特徴のためのスキャッタリング係数に対して、LDAを用いて次元削減を行い、コンactかつ判別性の高い表現を生成する。
  • 複数の二重線形DNNおよび二モーダルDNNアーキテクチャからの事後確率を統合することで、誤り相関を低減し、一般化性能を向上させる。
  • 二重線形重み行列の発散を防ぐために、トレーニング中にフロベニウスノルム制約を適用する。

実験結果

リサーチクエスチョン

  • RQ1信号対雑音比が高いクリーンな音声条件下でも、視覚情報が語彙認識性能を顕著に向上させることができるか?
  • RQ2別々に訓練された単モードDNNの後期統合は、音声・視覚ASRにおいて音声のみモデルを上回る性能を達成するか?
  • RQ3モダリティ間相関をモデル化する二重線形DNNアーキテクチャは、標準的な統合手法を上回る発音誤り率低減効果を示すか?
  • RQ4二重線形DNNと統合された二モーダルDNNには相補的な誤り行動が見られ、事後確率の組み合わせによってさらなる向上が得られるか?

主な発見

  • 統合された単モードDNNモデルは35.83%の発音誤り率(PER)を達成し、音声のみベースラインの41% PERから6.17ポイントの低下を達成した。
  • 二重線形DNNアーキテクチャ単体では統合された二モーダルモデルを上回らなかったが、それと組み合わせた場合、事後確率の統合により34.03%のPERを達成し、統合モデルより1.8%の絶対的改善が得られた。
  • 3つの二重線形DNNアーキテクチャを事後確率平均化することで統合した結果、35.54%のPERを達成し、二重線形モデルが相関のない誤りを示しており、一般化性能の向上に寄与していることが示された。
  • 二重線形DNNがクラス固有のモダリティ間相関をモデル化できることにより、二モーダルモデルと統合した際の顕著な誤り率低減が実現された。
  • 結果から、視覚情報が騒音環境や複数話者の重なりがある状況に限らず、クリーンな音声条件下でも顕著な利点を提供することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。