[논문 리뷰] Multimodal Engagement Analysis from Facial Videos in the Classroom
이 연구는 학생의 수업 참여도를 자동으로 분석하기 위해 얼굴 영상과 컴퓨터 비전 기반 시스템을 제안한다. 머리 자세 추정(Attention-Net)과 표정 인식(Affect-Net)을 위한 딥 러닝 모델을 사용하며, 다수의 분류기(SVM, Random Forest, MLP, LSTM)를 훈련하고, 점수 수준의 융합 및 개인화를 통해 최대 .084 AUC 향상을 달성하여 Grade 8에서 .620, Grade 12에서 .720의 AUC를 기록한다.
Student engagement is a key construct for learning and teaching. While most of the literature explored the student engagement analysis on computer-based settings, this paper extends that focus to classroom instruction. To best examine student visual engagement in the classroom, we conducted a study utilizing the audiovisual recordings of classes at a secondary school over one and a half month's time, acquired continuous engagement labeling per student (N=15) in repeated sessions, and explored computer vision methods to classify engagement levels from faces in the classroom. We trained deep embeddings for attentional and emotional features, training Attention-Net for head pose estimation and Affect-Net for facial expression recognition. We additionally trained different engagement classifiers, consisting of Support Vector Machines, Random Forest, Multilayer Perceptron, and Long Short-Term Memory, for both features. The best performing engagement classifiers achieved AUCs of .620 and .720 in Grades 8 and 12, respectively. We further investigated fusion strategies and found score-level fusion either improves the engagement classifiers or is on par with the best performing modality. We also investigated the effect of personalization and found that using only 60-seconds of person-specific data selected by margin uncertainty of the base classifier yielded an average AUC improvement of .084. 4.Our main aim with this work is to provide the technical means to facilitate the manual data analysis of classroom videos in research on teaching quality and in the context of teacher training.
연구 동기 및 목표
- 실제 수업 환경에서 얼굴 영상 데이터를 활용해 학생의 참여도를 자동으로 평가하는 방법을 개발하는 것.
- 주의와 감정과 같은 시각적 신호로부터 참여도를 추정하기 위해 컴퓨터 비전과 딥 러닝의 가능성을 탐색하는 것.
- 특징 융합 및 개인화가 참여도 분류 성능에 미치는 영향을 평가하는 것.
- 수업 품질 향상 및 교사 교육 지원을 위해 수업 영상 데이터의 스케일링 및 효율적인 분석을 가능하게 하는 것.
제안 방법
- 중학교에서 1.5개월 간 2개 학년(8학년 및 12학년)의 15명 학생으로부터 연속적인 음성 및 영상 기록을 확보하였다.
- 딥 네트워크 훈련: 머리 자세 추정을 위한 Attention-Net과 표정 인식을 위한 Affect-Net.
- 사전 훈련된 딥 임베딩을 사용해 얼굴 영상에서 주의 및 정서 특징을 추출하였다.
- 이러한 특징을 기반으로 SVM, Random Forest, 다층 퍼셉트론, LSTM 등의 참여도 분류기를 훈련시켰다.
- 다양한 모델 및 모odal 간 예측을 융합하기 위해 점수 수준의 융합 전략을 적용하였다.
- 일반화 성능 향상을 위해 마진 불확실성 기반으로 60초 분량의 개인화된 데이터 세그먼트를 선별하여 모델을 미세조정하였다.
실험 결과
연구 질문
- RQ1컴퓨터 비전 기반 얼굴 영상 분석이 실제 수업 환경에서 학생의 참여도 수준을 정확하게 추정할 수 있는가?
- RQ2주의 및 정서 특징을 활용한 다양한 참여도 분류기(SVM, Random Forest, MLP, LSTM)의 성능는 어떻게 되는가?
- RQ3다양한 모델의 점수 수준 융합이 개별 모달리티를 넘어서 참여도 분류 성능을 향상시키는가?
- RQ4짧은, 높은 불확실성 데이터 세그먼트를 활용한 개인화가 분류기 성능 향상에 얼마나 기여하는가?
- RQ5표본 수 제한과 클래스 불균형은 저참여 상태 탐지에 어떤 영향을 미치는가?
주요 결과
- 최고 성능을 보인 참여도 분류기는 12학년에서 AUC .720, 8학년에서 .620을 기록하여 중간 정도에서 양호한 분류 성능을 보였다.
- 다양한 모델의 점수 수준 융합은 최고의 개별 모델 성능을 향상시키거나 동일하게 유지하여, 다양한 모달리티 간 상호보완적 정보가 있음을 시사한다.
- 마진 불확실성 기반으로 선별한 60초 분량의 데이터만으로도 개인화를 수행함으로써 평균 AUC가 .084 향상되었으며, 최소한의 개인화가 유의미한 가치를 가짐을 입증하였다.
- 저참여 상태 탐지에 모델들이 어려움을 겪었는데, 이는 클래스 불균형과 데이터 부족으로 인한 것으로 보이며, 현재 데이터 수집 방식의 핵심적 한계를 드러낸다.
- 이 연구는 얼굴 영상에서의 자동 참여도 분석이 수업 연구에 대해 실현 가능하고 확장 가능한 방법임을 입증하였으며, 특히 개인화 및 융합 기법과 조합할 경우 더욱 효과적이다.
- 윤리적인 배포를 위해서는 원본 영상 데이터를 즉시 삭제하고 결과를 집계 처리하여 학생의 사생활을 보호해야 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.