QUICK REVIEW

[論文レビュー] Multimodal Engagement Analysis from Facial Videos in the Classroom

Ömer Sümer, Patricia Goldberg|arXiv (Cornell University)|Jan 11, 2021

Online Learning and Analytics被引用数 2

ひとこと要約

本研究では、顔の映像を用いたコンピュータビジョンベースのシステムを提案し、教室環境における学生の関与度を自動的に分析する。頭部の向き（Attention-Net）と顔の表情（Affect-Net）のためのディーブラーニングモデルを採用し、複数の分類器（SVM、ランダムフォレスト、MLP、LSTM）を訓練し、スコアレベルの融合とパーソナライゼーションを適用することで、AUCがGrade 8で.620、Grade 12で.720に達した。パーソナライゼーションと融合により、性能が最大.084 AUC向上した。

ABSTRACT

Student engagement is a key construct for learning and teaching. While most of the literature explored the student engagement analysis on computer-based settings, this paper extends that focus to classroom instruction. To best examine student visual engagement in the classroom, we conducted a study utilizing the audiovisual recordings of classes at a secondary school over one and a half month's time, acquired continuous engagement labeling per student (N=15) in repeated sessions, and explored computer vision methods to classify engagement levels from faces in the classroom. We trained deep embeddings for attentional and emotional features, training Attention-Net for head pose estimation and Affect-Net for facial expression recognition. We additionally trained different engagement classifiers, consisting of Support Vector Machines, Random Forest, Multilayer Perceptron, and Long Short-Term Memory, for both features. The best performing engagement classifiers achieved AUCs of .620 and .720 in Grades 8 and 12, respectively. We further investigated fusion strategies and found score-level fusion either improves the engagement classifiers or is on par with the best performing modality. We also investigated the effect of personalization and found that using only 60-seconds of person-specific data selected by margin uncertainty of the base classifier yielded an average AUC improvement of .084. 4.Our main aim with this work is to provide the technical means to facilitate the manual data analysis of classroom videos in research on teaching quality and in the context of teacher training.

研究の動機と目的

実際の教室環境において、顔の映像データを用いて学生の関与度を自動的に評価する手法を開発すること。
視覚的特徴（注視と感情）から関与度を推定するために、コンピュータビジョンとディーブラーニングを用いる可能性を検証すること。
特徴の統合とパーソナライゼーションが関与度分類のパフォーマンスに与える影響を評価すること。
教室映像データのスケーラブルで効率的な分析を可能にすることで、教育の質や教師研修に関する研究を支援すること。

提案手法

中学校の2年次（Grade 8）と高校2年次（Grade 12）の15名の生徒について、1.5か月にわたり継続的な音声映像記録を収集した。
深層ニューラルネットワークを訓練：頭部の向き推定のためのAttention-Netと、顔の表情認識のためのAffect-Net。
事前学習済みの深層埋め込みを用いて、顔の映像から注視と感情の特徴を抽出した。
これらの特徴をもとに、SVM、ランダムフォレスト、マルチレイヤーパーセプトロン、LSTMの複数の関与度分類器を訓練した。
異なるモデルとモダリティの予測を統合するスコアレベルの統合戦略を適用した。
マージン不確実性を用いて、微調整のための60秒間のパーソナライズドデータセグメントを選択し、汎化性能を向上させた。

実験結果

リサーチクエスチョン

RQ1コンピュータビジョンを用いた顔の映像分析は、実際の教室環境において学生の関与度を正確に推定できるか？
RQ2顔の映像から抽出した注視と感情の特徴を用いた場合、SVM、ランダムフォレスト、MLP、LSTMといった異なる関与度分類器の性能はどのようになるか？
RQ3複数のモデルのスコアレベルの統合は、個々のモダリティを上回る関与度分類性能を向上させるか？
RQ4短時間（60秒）の高不確実性データセグメントを用いたパーソナライゼーションは、分類器の性能をどの程度向上させるか？
RQ5サンプルサイズの制限とクラスの不均衡は、低関与状態の検出にどのような影響を及えるか？

主な発見

最高性能を示した関与度分類器は、Grade 12でAUC.720、Grade 8でAUC.620を達成し、中程度から良好な識別性能を示した。
複数のモデルのスコアレベルの統合は、最良の個別モデルと同等またはそれを上回る性能を示し、異なるモダリティ間で補完的な情報が得られていることを示唆した。
マージン不確実性で選択されたわずか60秒間のデータを用いたパーソナライゼーションにより、平均AUCが.084向上し、最小限のパーソナライゼーションの価値を示した。
モデルは低関与状態の検出に苦戦しており、これは主にクラスの不均衡とデータ不足に起因すると考えられ、現在のデータ収集における主要な制限要因である。
本研究は、顔の映像からの自動関与度分析が、特にパーソナライゼーションと統合技術を組み合わせた場合、教室研究において実現可能でスケーラブルであることを示した。
倫理的な導入には、生の映像データを即時削除し、結果を集約することで、学生のプライバシーを保護する必要がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。