Skip to main content
QUICK REVIEW

[論文レビュー] Distribution Matching for Heterogeneous Multi-Task Learning: a Large-scale Face Study

Dimitrios Kollias, Viktoriia Sharmanska|arXiv (Cornell University)|May 8, 2021
Emotion and Mood Recognition参考文献 61被引用数 99
ひとこと要約

本論文は、分布整合と共アノテーションを用いて、10個の現地データベースを横断して表情感情、アクションユニット、価valence-arousal、さらには顔の同一性と属性を共同学習する大規模な顔分析の総合的で異種多タスク学習フレームワークFaceBehaviorNetを提案し、負の転移を低減する。

ABSTRACT

Multi-Task Learning has emerged as a methodology in which multiple tasks are jointly learned by a shared learning algorithm, such as a DNN. MTL is based on the assumption that the tasks under consideration are related; therefore it exploits shared knowledge for improving performance on each individual task. Tasks are generally considered to be homogeneous, i.e., to refer to the same type of problem. Moreover, MTL is usually based on ground truth annotations with full, or partial overlap across tasks. In this work, we deal with heterogeneous MTL, simultaneously addressing detection, classification & regression problems. We explore task-relatedness as a means for co-training, in a weakly-supervised way, tasks that contain little, or even non-overlapping annotations. Task-relatedness is introduced in MTL, either explicitly through prior expert knowledge, or through data-driven studies. We propose a novel distribution matching approach, in which knowledge exchange is enabled between tasks, via matching of their predictions' distributions. Based on this approach, we build FaceBehaviorNet, the first framework for large-scale face analysis, by jointly learning all facial behavior tasks. We develop case studies for: i) continuous affect estimation, action unit detection, basic emotion recognition; ii) attribute detection, face identification. We illustrate that co-training via task relatedness alleviates negative transfer. Since FaceBehaviorNet learns features that encapsulate all aspects of facial behavior, we conduct zero-/few-shot learning to perform tasks beyond the ones that it has been trained for, such as compound emotion recognition. By conducting a very large experimental study, utilizing 10 databases, we illustrate that our approach outperforms, by large margins, the state-of-the-art in all tasks and in all databases, even in these which have not been used in its training.

研究の動機と目的

  • 検出、分類、回帰タスクを横断する表情行動分析のための異種多タスク学習を動機づけ、解決する。
  • 不完全または重複しないアノテーションを抱えるタスク間の知識流動を可能にする分布整合ベースの結合機構を開発する。
  • 負の転移を緩和する共アノテーションと分布整合ロスを提案する。
  • 大規模顔分析の初の総括的フレームワークとしてFaceBehaviorNetを創出する。
  • 学習した横断的な顔の挙動特徴を用いて、強力なデータベース横断性能とゼロショット/少数ショット一般化を示す。

提案手法

  • タスクT_iと分布D_iを用いた異種多タスク学習を定式化し、タスク間の平均期待損失を最小化することを目指す。
  • 訓練中にタスク間の結合を促進するために、タスク関連性(ドメイン知識またはデータセットからの経験則)を導入する。
  • アノテーションが複数のタスクにまたがって利用可能な場合、関連タスクのラベルを制約する共アノテーションを提案する。
  • 感情の混合分布q(y_au|x)を介してタスク予測を整列させる分布整合(蒸留風)損失L_DMを提案する。
  • アノテーションが不完全な場合の結合を強化するソフト共アノテーション変種とソフトターゲット(L_SCA)を導入する。
  • アイデンティティと40属性を組み合わせた第二のケーススタディへ分布整合を拡張する。
  • 学習した顔行動特徴を活用して、ゼロショット・少数ショットの複合表情認識を実証する。

実験結果

リサーチクエスチョン

  • RQ1異なるドメインでの表情分析タスク(分類、検出、回帰)を共に学習して性能を向上させるにはどうすればよいか。
  • RQ2ドメイン知識や経験的データセットの注釈を通じてタスク関連性を効果的にエンコードし、知識移転を可能にできるか。
  • RQ3分布整合に基づく結合は、顔分析のマルチタスク学習における負の転移を緩和できるか。
  • RQ41つの総合的モデルは大規模な野外データセットで感情計算と顔認識タスクの丹果をどれほど遂げられるか。
  • RQ5学習された特徴は複合表情のゼロショット・少数ショット認識を支援できるか。

主な発見

  • FaceBehaviorNetは、研究対象となった10データベースすべてのタスクで単一タスクネットワークを上回る。
  • 異種多タスク間の分布整合ベースの知識蒸留は負の転移を効果的に低減する。
  • 学習した総合表現を用いた複合感情認識のゼロショット・少数ショット学習をサポートする。
  • 共アノテーションおよび/または分布整合によるタスク結合は、訓練時に見られなかったデータベース上でも性能を向上させる。
  • 本手法は感情計算タスク(感情、AU、価valence-arousal)と顔認識属性(同一性、属性)で最先端の結果を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。