QUICK REVIEW

[論文レビュー] Look, Listen and Learn - A Multimodal LSTM for Speaker Identification

Jimmy Ren, Yongtao Hu|arXiv (Cornell University)|Feb 13, 2016

Speech and Audio Processing参考文献 34被引用数 53

ひとこと要約

本稿では、時間的ステップおよびモダリティの両方で重みを共有することで、シーケンス処理の初期段階から視覚的および聴覚的モダリティ表現を統合するマルチモーダルLong Short-Term Memory（LSTM）ネットワークを提案する。このモデルは、画像劣化や不要な干渉要因に対して顕著に高い耐性を示し、3.0秒の投票ウィンドウを用いたThe Big Bang Theoryデータセットで91.38%の正確性を達成し、最先端の性能を実現した。

ABSTRACT

Speaker identification refers to the task of localizing the face of a person who has the same identity as the ongoing voice in a video. This task not only requires collective perception over both visual and auditory signals, the robustness to handle severe quality degradations and unconstrained content variations are also indispensable. In this paper, we describe a novel multimodal Long Short-Term Memory (LSTM) architecture which seamlessly unifies both visual and auditory modalities from the beginning of each sequence input. The key idea is to extend the conventional LSTM by not only sharing weights across time steps, but also sharing weights across modalities. We show that modeling the temporal dependency across face and voice can significantly improve the robustness to content quality degradations and variations. We also found that our multimodal LSTM is robustness to distractors, namely the non-speaking identities. We applied our multimodal LSTM to The Big Bang Theory dataset and showed that our system outperforms the state-of-the-art systems in speaker identification with lower false alarm rate and higher recognition accuracy.

研究の動機と目的

実際の動画における深刻な画像劣化や干渉要因を伴う発話者識別の課題に対処すること。
時間的ステップとモダリティの両方で重みを共有することで、シーケンス処理の初期段階から視覚的および聴覚的モダリティを統合すること。
クロスモダリティ重み共有を通じて、干渉要因や画像品質の変動に対する耐性を向上させること。
統合的なディープラーニングフレームワーク内で、マルチモーダルな高次特徴の長期的時間的依存関係をモデル化すること。
従来の最先端手法と比較して、現実の動画データにおいて優れた性能を示すことを実証すること。

提案手法

時間的ステップおよびモダリティの両方で重みを共有する新しいマルチモーダルLSTMを提案し、時間的依存関係とクロスモダリティ相関の両方の共同学習を可能にする。
標準LSTMを拡張し、視覚的および聴覚的モダリティの両方で出力変換（W_y）に共通の重み行列を導入する。
両方のモダリティ固有の特徴が最初の時間ステップから同時に処理される統合アーキテクチャを採用し、別々の処理パイプラインを回避する。
滑らかなウィンドウ（0.5秒、0.25秒のストライド）を用いた時間的プーリングおよび投票戦略を適用し、実際の動画シーケンスにおける認識安定性を向上させる。
時間的同期が存在する場合に両モダリティで一貫したラベル予測を促進する統合学習目的関数を採用する。
ソフトマックス出力のしきい値mを調整してROC曲線を生成し、検出性能を最適化する。

実験結果

リサーチクエスチョン

RQ1LSTMアーキテクチャにおけるクロスモダリティ重み共有は、発話者識別における画像劣化や干渉要因に対する耐性を向上させることができるか？
RQ2統合的マルチモーダルLSTMを用いて視覚的および聴覚的シーケンスの両方の時間的依存関係をモデル化することで、個別に処理する手法よりも優れた性能が得られるか？
RQ3事前にモダリティ間相関を仮定しない状況でも、マルチモーダルLSTMは顔と声のシーケンス間の意味的な時間的相関を学習できるか？
RQ4変動する干渉要因の数や画像品質を伴う現実の動画環境において、本手法は最先端のシステムと比較してどのように性能を発揮するか？
RQ5完全なクロスモダリティ重み共有と部分的または共有なしの手法とを比較した場合、分類精度および誤検出率にどのような影響を与えるか？

主な発見

提案手法のマルチモーダルLSTMは、The Big Bang Theory S01E03で3.0秒の投票ウィンドウを用いて91.38%の発話者特定正確性を達成し、先行する最先端手法を上回った。
完全なクロスモダリティ重み共有は、共有なしや半分共有の手法と比較して、誤検出率を顕著に低減し、認識正確性を向上させた。
モデルはぼやけや遮蔽といった画像劣化に対しても優れた耐性を示し、単一モダリティのCNNでは失敗した状況でも発話者を正しく特定できた。
複数の干渉要因が存在するシーンでも高い性能を維持し、非発話者アイデンティティの強力な拒否能力を示した。
完全なクロスモダリティ重み共有戦略は、単独のモダリティLSTMや部分的共有のハイブリッドモデルよりも優れた性能を発揮した。
本手法は、統合フレームワーク内でマルチモーダルな高次特徴の長期的依存関係をモデル化した最初の手法であり、発話者識別分野で最先端の結果を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。