QUICK REVIEW

[論文レビュー] FAU, Facial Expressions, Valence and Arousal: A Multi-task Solution

Didan Deng, Zhaokang Chen|arXiv (Cornell University)|Feb 10, 2020

Emotion and Mood Recognition参考文献 7被引用数 5

ひとこと要約

本稿では、顔のアクションユニット検出、表情分類、感情の価値・覚醒度推定の3つのタスクを統合的に処理するマルチタスク学習フレームワークを提案する。クラスの不均衡や不完全なアノテーションの問題に対処するため、教師モデルのソフトラベルを用いた2段階の distillation 手法を採用し、3つのタスクすべてで教師モデルを上回る優れた性能を達成した。さらに、モデルアンサンブルにより性能が向上した。

ABSTRACT

We train a unified model to perform three tasks: facial action unit detection, expression classification, and valence-arousal estimation. We address two main challenges of learning the three tasks. First, most existing datasets are highly imbalanced. Second, most existing datasets do not contain labels for all three tasks. To tackle the first challenge, we apply data balancing techniques to experimental datasets. To tackle the second challenge, we propose an algorithm for the multitask model to learn from missing (incomplete) labels. This algorithm has two steps. We first train a teacher model to perform all three tasks, where each instance is trained by the ground truth label of its corresponding task. Secondly, we refer to the outputs of the teacher model as the soft labels. We use the soft labels and the ground truth to train the student model. We find that most of the student models outperform their teacher model on all the three tasks. Finally, we use model ensembling to boost performance further on the three tasks.

研究の動機と目的

顔のアクションユニット検出、表情分類、価値・覚醒度推定の3つのタスクを同時に実行できる統合的ディープラーニングモデルの開発。
顔の表情分析で一般的に見られる極度に不均衡なデータセットの課題に対処すること。
3つのタスクのアノテーションがすべて揃わない訓練データにおいても、効果的なマルチタスク学習を可能にすること。
教師-生徒の distillation フレームワークを用いてソフトラベルを活用することで、3つのタスクのすべてでモデルの汎化性能と性能を向上させること。
生徒モデルのアンサンブルにより、最終的な性能をさらに向上させること。

提案手法

各サンプルをその対応するタスクのラベルのみで学習するように、教師モデルを3つのタスクすべてで訓練する。
教師モデルの予測結果から、すべてのタスクのソフトラベルを生成する。アノテーションが欠落しているタスクに対しても同様に実行する。
ソフトラベルと利用可能な真のラベルを組み合わせ、マルチタスク学習の枠組みで生徒モデルを訓練する。
実験用データセットにおけるクラスの不均衡を軽減するためのデータバランス化技術を適用する。
2段階の訓練プロセスを実装する：まず教師モデルを事前学習し、次にソフトラベルを用いて知識を生徒モデルに distillation する。
複数の生徒モデルをアンサンブルすることで、3つのタスクすべての性能をさらに向上させる。

実験結果

リサーチクエスチョン

RQ1アノテーションが不完全な状況下でも、統合モデルが顔のアクションユニット検出、表情分類、価値・覚醒度推定の3つを同時に効果的に学習できるか？
RQ2教師モデルから得たソフトラベルを用いた知識 distillation は、教師モデルを直接学習するのと比較して、3つのタスクすべての性能を向上させるか？
RQ3データバランス化技術は、顔の表情データセットにおけるクラスの不均衡に起因する性能低下をどの程度軽減できるか？
RQ4生徒モデル単体よりも、アンサンブルにより3つのタスクすべての性能がさらに向上するか？
RQ5ソフトラベルを用いて学習された生徒モデルは、3つのタスクすべてで教師モデルを上回る性能を達成できるか？

主な発見

生徒モデルは、顔のアクションユニット検出、表情分類、価値・覚醒度推定の3つのタスクすべてで、教師モデルを一貫して上回る性能を示した。
教師モデルのソフトラベルの活用により、一部のタスクで真のラベルが欠落している場合でも、効果的な学習が可能になった。
データバランス化技術は、不均衡なデータセットにおけるモデル性能を顕著に向上させた。
モデルアンサンブルは、個別の生徒モデルと比較して、3つのタスクすべてでさらなる性能向上をもたらした。
本稿で提案された distillation を組み込んだマルチタスクフレームワークは、研究で用いられたベンチマークデータセットにおいて、最先端の性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。