QUICK REVIEW

[論文レビュー] Naver at ActivityNet Challenge 2019 -- Task B Active Speaker Detection (AVA)

Joon Son Chung|arXiv (Cornell University)|Jun 25, 2019

Speech and Audio Processing参考文献 13被引用数 31

ひとこと要約

本論文では、AVA-ActiveSpeakerデータセットにおけるアクティブスピーカー検出のため、3D-CNNフロントエンド特徴量と時系列畳み込みおよびLSTMバックエンドを組み合わせたアンサンブルモデルを提示する。自己教師あり音声視覚表現と時系列スムージングを活用することで、テストセットでmAP 0.878を達成し、ベースラインのGRUモデル（mAP 0.821）を著しく上回った。

ABSTRACT

This report describes our submission to the ActivityNet Challenge at CVPR 2019. We use a 3D convolutional neural network (CNN) based front-end and an ensemble of temporal convolution and LSTM classifiers to predict whether a visible person is speaking or not. Our results show significant improvements over the baseline on the AVA-ActiveSpeaker dataset.

研究の動機と目的

平均1.11秒という非常に短い発話セグメントを伴う動画におけるアクティブスピーカー検出の課題に対処すること。
過去に録画された非同期な動画で見られる音声視覚同期の問題を克服すること。
正確な音声視覚同期に依存しない、頑健なアクティブスピーカー検出システムの開発。
長時間のスムージング窓を必要とする既存手法の性能を向上させること。
自己教師あり事前学習を用いたエンドツーエンドの深層学習により、AVA-ActiveSpeakerデータセットで最先端の結果を達成すること。

提案手法

5フレーム（0.2秒）のクリップを処理する3D-CNNベースの動画エンコーダーを用い、512次元の視覚的特徴量を抽出する。
20フレームのスペクトログ램入力（13次ケプストラム係数）を用い、2D-CNNベースの音声エンコーダーを適用して512次元の音声特徴量を生成する。
ラベルなしの動画データ上で自己教師あり対照的学習を用いてフロントエンドエンコーダーを訓練し、音声と視覚的表現を一致させる。
音声と視覚的特徴量を、それぞれ128次元の隠れユニットを備えたバイリバーシブルLSTMネットワークと2層の時系列畳み込みネットワーク（TCN）という2つの別々のバックエンド分類器を用いて統合する。
LSTMとTC分類器の予測結果を等重みで平均することにより、アンサンブル予測を生成する。
0.5秒の窓を用いた中央値フィルターやウィーナー・フィルタを適用して、予測ノイズを低減するための時系列スムージングを実施する。

実験結果

リサーチクエスチョン

RQ1音声視覚の不整合が生じる状況下でも、自己教師あり音声視覚表現学習アプローチがアクティブスピーカー検出の性能を向上させ得るか？
RQ2短い時系列に対するアクティブスピーカー検出において、時系列畳み込みネットワーク（TCN）はLSTMに比べてどれほど効果的か？
RQ3モデルアンサンブルはAVA-ActiveSpeakerベンチマークにおけるロバスト性と精度をどの程度向上させるか？
RQ4時系列スムージング技術は、ノイズが多いまたは断片的な発話セグメントにおける検出性能を向上させるか？
RQ5正確な音声視覚同期に依存する既存の対応ベースのモデルと比較して、本手法は優れているか？

主な発見

ウィーナー・スムージングを適用したアンサンブルモデルが、保留テストセットで最高のmAP 0.878を達成し、ベースラインのGRUモデル（mAP 0.821）を著しく上回った。
TC分類器単体がバリデーションセットでmAP 0.855を達成し、LSTM分類器（mAP 0.851）をわずかに上回った。
LSTMとTC分類器のアンサンブルにより性能がmAP 0.861まで向上し、異なる時系列モデリング手法を組み合わせることの利点を示した。
0.5秒の中央値フィルタを用いた時系列スムージングにより性能がmAP 0.874まで向上し、ウィーナー・フィルタを適用することでさらにmAP 0.878まで向上した。
平均1.11秒という短い発話セグメントにおいても、強力な一般化性能を示し、より長い時系列的文脈を必要とする手法を上回った。
正確な音声視覚同期に依存しないため、音声視覚の不整合に対してもモデルは頑健であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。