QUICK REVIEW

[논문 리뷰] DAiSEE: Towards User Engagement Recognition in the Wild

Abhay Gupta, Arjun D'Cunha|arXiv (Cornell University)|2016. 09. 07.

Emotion and Mood Recognition참고 문헌 63인용 수 25

한 줄 요약

DAiSEE는 실제 온라인 학습 환경에서 사용자 참여도를 인식하기 위한 첫 번째 공개 가능하고 대규모 영상 데이터셋을 소개한다. 이 데이터셋은 112명의 사용자로부터 확보한 9,068개의 영상 스니펫을 바탕으로 참여도, 지루함, 혼란, 분노의 네 가지 정서 상태를 촬영한다. 다수의 인력이 참여한 코그니티브 평가 방식을 사용하여 전문가 심리학자 기준과 관련된 다수 수준의 주관적 평가를 수행하였으며, 비구속적인 환경에서 영상 기반 정서 인식의 기준을 설정한다.

ABSTRACT

We introduce DAiSEE, the first multi-label video classification dataset comprising of 9068 video snippets captured from 112 users for recognizing the user affective states of boredom, confusion, engagement, and frustration in the wild. The dataset has four levels of labels namely - very low, low, high, and very high for each of the affective states, which are crowd annotated and correlated with a gold standard annotation created using a team of expert psychologists. We have also established benchmark results on this dataset using state-of-the-art video classification methods that are available today. We believe that DAiSEE will provide the research community with challenges in feature extraction, context-based inference, and development of suitable machine learning methods for related tasks, thus providing a springboard for further research. The dataset is available for download at https://people.iith.ac.in/vineethnb/resources/daisee/index.html.

연구 동기 및 목표

실제 비구속적인 환경에서 사용자 참여도 인식을 위한 공개 가능한 데이터셋이 부족한 문제를 해결하기 위해.
참여도, 지루함, 혼란, 분노를 포함한 다중 레이블 영상 데이터셋을 제공함으로써 정서 계산 분야의 연구를 가능하게 하기 위해.
실제 정서 상태 인식에 최신 기법을 적용한 영상 분류 모델에 대한 기준 성능을 설정하기 위해.
어두운 조명, 가림, 비면대칭 자세와 같은 다양한 실제 환경 조건에서 일반화할 수 있는 강력한 기계 학습 모델 개발을 지원하기 위해.
풍부한 주석이 부여된 영상 데이터를 통해 온라인 학습, 헬스케어, 광고, 자율주행 차량 분야의 맥락 인식 시스템 연구를 촉진하기 위해.

제안 방법

112명의 사용자가 자연스러운 온라인 학습 세션 중에 촬영한 영상 스니펫을 수집하여 실제 환경 조건(다양한 조명, 자세, 배경 방해 요소 포함)을 반영한다.
각 영상 스니펫은 네 가지 정서 상태에 대해 매우 낮음, 낮음, 높음, 매우 높음의 네 단계로 구성된 '다수의 지혜' 방식을 통해 주석이 부여되었다.
전문 심리학자 팀이 주관적 평가와 관련된 금표 주석을 생성하여 코그니티브 평가 결과와 비교 및 검증하였다.
저조도, 얼굴 가림, 정서 상태의 동적 변화 등 다양한 과제를 포함한 총 9,068개의 영상 스니펫이 포함되어 있다.
최신 영상 분류 모델을 DAiSEE 데이터셋에 적용하여 기준 성능 결과를 확립함으로써 향후 연구의 기초를 마련하였다.
투표 집계 및 모델 개선 연구를 지원하기 위해 원시 주석 데이터를 포함한 데이터셋을 공개하였다.

실험 결과

연구 질문

RQ1어떻게 비구속적인 실제 환경(예: 온라인 학습 세션)에서 사용자 참여도를 신뢰성 있게 인식할 수 있는가?
RQ2자연스러운 영상 환경에서 지루함, 혼란, 참여도, 분노와 같은 정서 상태를 인식하는 데 있어 핵심 과제는 무엇인가?
RQ3정서 인식 작업에서 다수 수준의 코그니티브 주석과 전문가가 검증한 금표 주석 간의 비교는 어떻게 이루어지는가?
RQ4참여도와 지루함과 같은 정서 상태 간의 상호 보완적 관계가 모델의 강건성과 분류 정확도에 얼마나 기여하는가?
RQ5현재의 영상 분류 모델이 실제 환경에서 다양한 정서 상태 인식에 적용되었을 때의 성능 한계는 무엇인가?

주요 결과

DAiSEE는 기존의 일곱 가지 기본 감정이 아닌 참여도, 지루함, 혼란, 분노의 네 가지 특정 정서 상태에 집중한 첫 번째 공개 가능한 데이터셋이다.
112명의 사용자로부터 수집된 실제 온라인 학습 환경에서의 9,068개의 영상 스니펫을 포함하며, 조명, 자세, 배경의 자연스러운 변동성이 반영되어 있다.
각 정서 상태는 매우 낮음에서 매우 높음까지의 네 단계 척도로 레이블링되었으며, 전문 심리학자들이 만든 금표 기준과 검증되었다.
데이터셋은 참여도와 지루함이 일반적으로 상호 보완적이지만 항상 그렇지는 않음을 보여주며, 정서 상태 간의 복잡하고 비선형적인 관계를 시사한다.
최신 영상 분류 모델을 적용하여 기준 성능 결과를 확립함으로써 향후 연구의 기초를 마련하였다.
저조도, 얼굴 가림, 비면대칭 자세와 같은 도전적인 실제 환경 조건이 포함되어 있으며, 이는 모델 성능에 상당한 영향을 미친다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.