QUICK REVIEW

[논문 리뷰] EmotioNet Challenge: Recognition of facial expressions of emotion in the wild

C. Fabian Benitez-Quiroz, Ramprakash Srinivasan|arXiv (Cornell University)|2017. 03. 03.

Face recognition and analysis참고 문헌 18인용 수 49

한 줄 요약

이 논문은 자연 환경에서 얼굴 표정의 정서를 인식하는 컴퓨터 비전 알고리즘에 대한 대규모 평가인 EmotioNet 챌린지를 제시한다. 100만 장의 이미지로 구성된 데이터셋(자동으로 주석 처리된 95만 장, 수동으로 검증된 5만 장)을 사용하여 행동 단위 검출(11개 AUs)과 정서 카테고리 인식(16개 카테고리)을 테스트하였다. 주요 발견은 현재 알고리즘이 비면역 3D 자세에서 정서 인식에 있어 상당한 어려움을 겪고 있다는 것으로, 해상도 변화나 경미한 가림 현상에 대해서는 내성적이라는 점이다.

ABSTRACT

This paper details the methodology and results of the EmotioNet challenge. This challenge is the first to test the ability of computer vision algorithms in the automatic analysis of a large number of images of facial expressions of emotion in the wild. The challenge was divided into two tracks. The first track tested the ability of current computer vision algorithms in the automatic detection of action units (AUs). Specifically, we tested the detection of 11 AUs. The second track tested the algorithms' ability to recognize emotion categories in images of facial expressions. Specifically, we tested the recognition of 16 basic and compound emotion categories. The results of the challenge suggest that current computer vision and machine learning algorithms are unable to reliably solve these two tasks. The limitations of current algorithms are more apparent when trying to recognize emotion. We also show that current algorithms are not affected by mild resolution changes, small occluders, gender or age, but that 3D pose is a major limiting factor on performance. We provide an in-depth discussion of the points that need special attention moving forward.

연구 동기 및 목표

통제된 실험실 조건을 뛰어나 자연스럽고 제약 없는 환경에서 정서의 얼굴 표정을 인식하는 컴퓨터 비전 알고리즘의 성능을 평가하기 위해.
감정과 관련된 근육 움직임에 해당하는 11개의 특정 얼굴 행동 단위(AUs)를 탐지하는 최첨단 기술의 수준을 평가하기 위해.
자연스럽고 제약 없는 환경에서 16개 기본 및 복합 정서 카테고리 인식 능력을 알고리즘의 능력을 테스트하기 위해.
성능 저하의 핵심 요인을 특정하기 위해, 3D 자세, 이미지 해상도, 가림 현상, 인구 통계적 다양성 등을 평가하기 위해.
향후 연구를 지원하기 위해 자동 생성된 주석과 전문가가 검증한 주석이 모두 포함된 대규모 고품질 벤치마크 데이터셋(EmotioNet)을 제공하기 위해.

제안 방법

다양하고 실제 세계의 소스에서 온 100만 장의 얼굴 이미지로 구성된 대규모 데이터셋을 구축하여 행동 단위와 정서 카테고리로 주석 처리하였다.
인간 신경인지 원리에 기반한 계산 모델을 사용하여 훈련을 위한 95만 장의 이미지를 자동으로 주석 처리하였으며, 알려진 주석 정확도는 약 81%였다.
훈련 레이블의 노이즈에 대한 알고리즘의 내성적 성능을 평가하기 위해 별도로 수동 주석 처리된 검증 세트 25,000장을 활용하였다.
최종 평가를 위해 개발 과정에서의 데이터 泄露를 방지하기 위해 별도로 보관된 테스트 세트 25,000장을 확보하였다.
두 가지 챌린지 트랙을 설계: 하나는 행동 단위 검출(11개 AU)을 위한 것, 다른 하나는 정서 카테고리 인식(16개 카테고리)을 위한 것으로, 표준화된 평가 프로토콜을 적용하였다.
3D 자세(pitch/yaw), 이미지 해상도, 가림 현상, 성별, 연령 등을 변수로 하여 알고리즘의 내성적 성능과 편향 여부를 평가하였다.

실험 결과

연구 질문

RQ1현재 컴퓨터 비전 알고리즘은 제약 없는 실제 세계의 이미지에서 11개의 얼굴 행동 단위(AUs)를 신뢰성 있게 탐지할 수 있는가?
RQ2이미지 해상도, 경미한 가림 현상, 성별, 연령이 AU 탐지 및 정서 인식 알고리즘의 성능에 어느 정도 영향을 미치는가?
RQ33D 얼굴 자세(pitch 및 yaw)는 실제 세계 환경에서 정서 인식 및 AU 탐지 정확도에 어떤 영향을 미치는가?
RQ4왜 알고리즘은 AU 탐지에 비해 정서 카테고리 인식에서 상당히 떨어지는가? 인간이 쉽게 해결할 수 있는 간단한 일상적 능력이 AI 시스템에선 여전히 도전 과제인가?
RQ5수정된 품질의 수동 주석 처리된 하위 세트로 검증할 때, 노이즈가 많은 훈련 레이블에서 효과적으로 학습할 수 있는가?

주요 결과

현재 컴퓨터 비전 알고리즘은 제약 없는 실제 세계의 이미지에서 얼굴 행동 단위(AUs)를 또는 정서 카테고리를 안정적으로 탐지할 수 없다.
정서 인식 성능는 AU 탐지 성능보다 상당히 열 劣하며, 이는 심지어 인간이 쉽게 해결할 수 있는 일상적인 능력조차도 AI 시스템에선 아직 달성되지 못하고 있음을 시사한다.
3D 얼굴 자세가 가장 중요한 제한 요소이며, 얼굴이 정면에서 벗어나면 성능이 뚜렷이 저하된다.
알고리즘은 해상도의 경미한 변화나 작은 가림 물체에 대해 내성적임을 보이며, 척도 및 국소적 방해 요소를 다루는 데 진전이 있었다는 것을 시사한다.
성별이나 연령에 따른 유의미한 편향은 발견되지 않았으며, 이는 현재 모델이 인구 통계적 그룹 간에 체계적으로 편향되어 있지 않음을 시사한다.
전문가가 검증한 주석이 포함된 검증 세트는 노이즈가 많은 데이터에서 학습하는 중요성을 강조하며, 신뢰할 수 없는 훈련 데이터에서 성능 향상을 위해 공활성 패턴 모델링이 효과적일 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.