QUICK REVIEW

[論文レビュー] Morphset:Augmenting categorical emotion datasets with dimensional affect labels using face morphing

Vassilios Vonikakis, Neo Yuan Rong Dexter|arXiv (Cornell University)|Mar 4, 2021

Emotion and Mood Recognition参考文献 28被引用数 8

ひとこと要約

MorphSetは、カテゴリカルな顔の感情データセットに連続的な次元的感情ラベル（退屈度と覚醒度）を追加するための顔のモーフィングベースのフレームワークを提案する。20倍以上のデータ拡張を達成するとともに、バランスが取れ、現実的で、極めて一貫性のあるアノテーションを保証する。本手法は、ピーク表現とニュートラルな顔の間で制御されたモーフィングを用いて、1人の被験者あたり数多くの表情変種を合成し、従来のノイズの多いウェルドデータセットに比べ、次元的顔の表情分析モデルの訓練において優れた性能を発揮する。

ABSTRACT

Emotion recognition and understanding is a vital component in human-machine interaction. Dimensional models of affect such as those using valence and arousal have advantages over traditional categorical ones due to the complexity of emotional states in humans. However, dimensional emotion annotations are difficult and expensive to collect, therefore they are not as prevalent in the affective computing community. To address these issues, we propose a method to generate synthetic images from existing categorical emotion datasets using face morphing as well as dimensional labels in the circumplex space with full control over the resulting sample distribution, while achieving augmentation factors of at least 20x or more.

研究の動機と目的

感情計算分野における大規模でバランスが取れ、高品質な次元的感情データセットの不足に取り組む。
連続的な退屈度と覚醒度のラベルの高コストと一貫性の欠如を克服する。
カテゴリカルな感情データセットを、完全な分布制御が可能な形で次元的データセットに制御的かつ現実的に拡張することを可能にする。
監視学習に適した、顔のアイデンティティを保持し、一貫性のある次元的感情ラベルが付与された視覚的に説得力のある顔の画像を生成する。

提案手法

Dlibを用いて68個の顔のランドマーク間の顔のモーフィングを用いて、合成された顔の表情を生成する。
2種類のモーフィングを適用する：アプシス・トゥ・アプシス（プロトタイプ表現の間の補間）とニュートラル・トゥ・アプシス（ニュートラルからアプシスへの強度の変化）。
退屈度-覚醒度（VA）円板空間において極座標を用い、表現を角度と強度にマッピングする。
連続的な退屈度と覚醒度を次式で計算する：V = I·cos(θ), A = I·sin(θ)，ここでIは強度、θは角度位置である。
VA空間全体にわたる細かさと対称性を保証するため、15°の角度刻みと0.1の強度ステップを用いる。
VA平面を完全にカバーするバランスの取れた、包括的なデータセットを生成し、ミラー処理と細粒度サンプリングを施すと最大450,000枚の画像に達する。

実験結果

リサーチクエスチョン

RQ1少数のカテゴリカルなデータセットから、小さなカテゴリカルなデータセットをもとに、VA空間全体にわたり体系的かつ現実的で多様な顔の表情を生成するのに顔のモーフィングが利用可能か？
RQ2自動生成された次元的ラベルを備えた本手法で得られる合成データセットは、従来のウェルドデータセットに比べ、次元的FEAモデルの訓練において優れた性能を発揮するか？
RQ3制御されたモーフィングは、顔のアイデンティティと現実性をどれほど保ちながら、表現変種の分布を完全に制御可能にするか？
RQ4自動生成された退屈度と覚醒度のアノテーションは、人間によるアノテーションデータセットと比較して、どれほど一貫性があり信頼性があるか？

主な発見

MorphSetは最低20倍のデータ拡張を達成し、被験者1人あたり55,000枚以上の画像を生成し、細粒度サンプリングとミラー処理を施すと最大450,000枚に達する。
MorphSetで訓練されたResNet-18モデルは、退屈度に関してCCC 0.915、覚醒度に関してCCC 0.821を達成し、AffectNet（CCC 0.533および0.418）とAff-Wild（CCC 0.186および0.174）を著しく上回った。
MorphSetにおける退屈度と覚醒度のRMSEはそれぞれ0.157および0.155であり、AffectNet（0.427および0.390）とAff-Wild（0.407および0.266）と比較して顕著に低く、アノテーションの一貫性が高かった。
サンプル画像の視覚的検査により、MorphSetはAffectNet や Aff-Wild と比較してはるかに少ない表現の外れ値や一貫性の欠如を示しており、顔の表情が割り当てられたVAラベルと密接に一致していることが確認された。
本フレームワークは、非常に現実的で、アイデンティティを保持する合成画像を生成し、視覚的に説得力があり、耐障害性のあるウェルドFEAシステムの訓練に適している。
本手法は、VA空間における表現の分布を完全にユーザーが制御可能であり、特定の表現変種や強度のターゲット生成が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。