QUICK REVIEW

[論文レビュー] End2You -- The Imperial Toolkit for Multimodal Profiling by End-to-End Learning

Panagiotis Tzirakis, Stefanos Zafeiriou|arXiv (Cornell University)|Feb 4, 2018

Music and Audio Processing参考文献 8被引用数 21

ひとこと要約

End2You は、インペリアル・カレッジ・ロンドンで開発されたオープンソースでエンド・ツー・エンドのディープラーニング・ツールキットであり、手作業で設計された特徴量を必要とせず、音声、動画、生理的信号、またはその組み合わせといった生のセンサリィ入力を用いてマルチモーダルなプロファイリングを実行する。RECOLAデータセットにおいても、手作業で設計された特徴量に依存しないにもかかわらず、状態の最良の結果を達成する競争力ある性能を発揮している。

ABSTRACT

We introduce End2You -- the Imperial College London toolkit for multimodal profiling by end-to-end deep learning. End2You is an open-source toolkit implemented in Python and is based on Tensorflow. It provides capabilities to train and evaluate models in an end-to-end manner, i.e., using raw input. It supports input from raw audio, visual, physiological or other types of information or combination of those, and the output can be of an arbitrary representation, for either classification or regression tasks. To our knowledge, this is the first toolkit that provides generic end-to-end learning for profiling capabilities in either unimodal or multimodal cases. To test our toolkit, we utilise the RECOLA database as was used in the AVEC 2016 challenge. Experimental results indicate that End2You can provide comparable results to state-of-the-art methods despite no need of expert-alike feature representations, but self-learning these from the data "end to end".

研究の動機と目的

エキスパートが設計した特徴量のエンジニアリングを不要とする汎用的でオープンソースのエンド・ツー・エンドのマルチモーダル・プロファイリング用ツールキットの開発。
音声、動画、生理的信号、またはその組み合わせといった生の入力モダリティ上でディープラーニング・モデルの学習と評価を可能にする。
任意の出力次元と時間的構造を持つ分類および回帰タスクをサポートする。
モジュラーなアーキテクチャにより、単モダリティおよびマルチモダリティのモデルを柔軟に組み合わせられるフレームワークを提供する。
生のセンサリィデータのみを用いたエンド・ツー・エンドの学習が、感情計算タスクにおいて実現可能であることを示す。

提案手法

ツールキットは Python で実装されており、TensorFlow を使用しており、コマンドラインインターフェースおよび API インターフェースの両方をサポートする。
生の入力データは、効率的なデータ読み込みと学習のため、.tfrecord 形式に変換される。
単モダリティのモデルには、音声用に2ブロックのCNN（40フィルタ、カーネルサイズ20および40）、動画用に50層のResNet、順序付きデータのモデリングにRNN（GRU または LSTM）が含まれる。
全結合ネットワーク（FCN）とRNNを用いて特徴量や生の入力を処理することで、柔軟なモデルスタッキングが可能になる。
マルチモダリティ統合は、単モダリティモデルの出力を連結し、共通のRNNまたはFCNヘッドに供給することで実現される。
系統的学習には、一致性相関係数（CCC）を損失関数および評価指標として使用する。

実験結果

リサーチクエスチョン

RQ1生のセンサリィ入力のみを用いたエンド・ツー・エンドのディープラーニングが、手作業で設計された特徴量を一切使用せずに、マルチモーダルな感情プロファイリングで競争力ある性能を達成できるか？
RQ2HRV や EDA メトリクスといったエンジニアリング特徴量に依存する最先端のシステムと比較して、エンド・ツー・エンドのモデルの性能はどの程度か？
RQ3モジュラーでオープンソースのツールキットが、感情計算の分野における多様な単モダリティおよびマルチモダリティの構成をどの程度サポートできるか？
RQ4生の生理的信号（ECG、EDA）が、連続的な感情予測のためのエンド・ツー・エンドのモデルで効果的に活用できるか？
RQ5音声、動画、生理的モダリティの統合が、次元的な感情認識のためのエンド・ツー・エンド学習においてどの程度効果的か？

主な発見

音声モダリティにおいて、End2You は RECOLA テストセットで、アーザル（Arousal）の CCC が 0.669、バリエンス（Valence）の CCC が 0.286 を達成し、ベースライン（0.648 と 0.375）を上回った。
動画モダリティでは、End2You はアーザルで CCC 0.358、バリエンスで CCC 0.561 を達成し、ベースライン（0.272 と 0.507）を上回り、優勝者の性能に近づいた。
生理的（ECG）モダリティでは、End2You はアーザルで CCC 0.154、バリエンスで CCC 0.052 を達成し、ベースラインをわずかに下回ったが、生の信号を用いた実現可能性を示した。
マルチモダリティのモデルでは、アーザルで CCC 0.672、バリエンスで CCC 0.521 を達成し、ベースライン（0.683 と 0.639）に非常に近い性能を示したが、コンテスト優勝者（0.770 と 0.687）には及ばなかった。
優勝者との性能差は、HRV などの手作業で設計された生理的特徴量の使用に起因しており、それらは生の ECG や EDA シグナルよりもより判別力に優れた情報を提供していることが要因であるとされる。
音声および動画用の事前学習済み単モダリティモデルは公開されており、新しいデータセットへの転移学習や迅速なプロトタイピングを可能にしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。