QUICK REVIEW

[論文レビュー] DAiSEE: Towards User Engagement Recognition in the Wild

Abhay Gupta, Arjun D'Cunha|arXiv (Cornell University)|Sep 7, 2016

Emotion and Mood Recognition参考文献 63被引用数 25

ひとこと要約

DAiSEEは、実世界のeラーニング環境におけるユーザー参加度を認識するための、公開済みで大規模な動画データセットを初めて提供する。9,068本の動画スニペット（112名のユーザーから収集）を用い、参加度、退屈、混乱、いらだちという4つの感情状態を捉えている。複数レベルのクラウドソーシングによるアノテーションが、専門的心理学者が作成したゴールドスタンダードと相関づけられており、制約のない環境における動画ベースの感情認識のベンチマークを確立している。

ABSTRACT

We introduce DAiSEE, the first multi-label video classification dataset comprising of 9068 video snippets captured from 112 users for recognizing the user affective states of boredom, confusion, engagement, and frustration in the wild. The dataset has four levels of labels namely - very low, low, high, and very high for each of the affective states, which are crowd annotated and correlated with a gold standard annotation created using a team of expert psychologists. We have also established benchmark results on this dataset using state-of-the-art video classification methods that are available today. We believe that DAiSEE will provide the research community with challenges in feature extraction, context-based inference, and development of suitable machine learning methods for related tasks, thus providing a springboard for further research. The dataset is available for download at https://people.iith.ac.in/vineethnb/resources/daisee/index.html.

研究の動機と目的

実世界の制約のない環境におけるユーザー参加度認識のための公開済みデータセットが不足しているという問題に対処すること。
参加度、退屈、混乱、いらだちを捉える大規模でマルチラベルの動画データセットを提供することで、感情コンピューティング分野の研究を促進すること。
実世界の感情状態認識において、最先端の手法を用いた動画分類モデルのベンチマークを確立すること。
明るさの不足、遮蔽、正面でないポーズといった多様な現実世界の条件に一般化できる強固な機械学習モデルの開発を支援すること。
eラーニング、医療、広告、自動運転車両の分野における文脈に応じたシステム研究を、豊富なアノテーション付き動画データを通じて促進すること。

提案手法

データセットは、自然なeラーニングセッション中に112名のユーザーから収集されたもので、明るさの変化、ポーズ、背景の干渉といった実世界の条件を再現している。
各動画スニペットは、4つの感情状態（非常に低い、低い、高い、非常に高い）の4段階でアノテーションされた。
ゴールドスタンダードのアノテーションは、専門的心理学者のチームが作成し、クラウドソーシングのラベルと照合された。
低照度、顔の遮蔽、感情状態の動的な変化といった多様な課題を含む9,068本の動画スニペットが含まれている。
最先端の動画分類モデルをDAiSEEデータセットに適用し、将来の研究の基準となるベンチマーク結果を確立した。
投票集約やモデル改善の研究を支援するため、元のアノテーションデータを含めてデータセットを公開した。

実験結果

リサーチクエスチョン

RQ1eラーニングセッションのような制約のない実世界環境で、ユーザー参加度を信頼性高く認識する方法は何か？
RQ2自然な動画環境における退屈、混乱、参加度、いらだちといった感情状態を認識する際の主な課題は何か？
RQ3感情認識タスクにおいて、多段階のクラウドソーシングによるアノテーションと、専門家による検証済みゴールドスタンダードアノテーションの比較は？
RQ4参加度と退屈といった感情状態の間の補完的関係が、モデルの頑健性および分類精度にどの程度寄与するか？
RQ5現在の動画分類モデルが、実世界の多様な感情状態認識に適用された際の性能限界は何か？

主な発見

DAiSEEは、伝統的な7つの基本感情ではなく、参加度、退屈、混乱、いらだちという4つの特定の感情状態に焦点を当てた、最初の公開済みデータセットである。
112名のユーザーから収集された9,068本の動画スニペットを含み、明るさ、ポーズ、背景の自然な変化を伴う実際のeラーニング環境で収集された。
各感情状態は「非常に低い」から「非常に高い」までの4段階スケールでラベル付けされており、専門的心理学者が作成したゴールドスタンダードと照合済みである。
データセットは、参加度と退屈が一般的には補完的であるが、常にそうではないことから、感情状態間の複雑で非線形的な関係を示している。
最先端の動画分類モデルを用いたベンチマーク性能が確立され、将来的な研究の基準が提供された。
低照度、顔の遮蔽、非正面のポーズといった現実世界の課題が含まれており、これらはモデルの性能に顕著な影響を与えている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。