QUICK REVIEW

[논문 리뷰] Confidence-Weighted Local Expression Predictions for Occlusion Handling in Expression Recognition and Action Unit detection

Arnaud Dapogny, Kévin Bailly|arXiv (Cornell University)|2016. 07. 21.

Emotion and Mood Recognition참고 문헌 51인용 수 69

한 줄 요약

이 논문은 비면의 비면 영역을 기반으로 한 랜덤 포레스트를 사용하여 신뢰도 점수를 통합한 국소적 표현 예측(LEPs)을 제안한다. 이 신뢰도 점수는 비면의 다양체를 모델링하는 계층적 오토인코더에서 유도된다. 이 방법은 부분적 가림 상황과 자세 변화에 대해 뛰어난 내성성을 보이며, 실시간 추론이 가능하고 신뢰도가 높은 성능을 달성한다.

ABSTRACT

Fully-Automatic Facial Expression Recognition (FER) from still images is a challenging task as it involves handling large interpersonal morphological differences, and as partial occlusions can occasionally happen. Furthermore, labelling expressions is a time-consuming process that is prone to subjectivity, thus the variability may not be fully covered by the training data. In this work, we propose to train Random Forests upon spatially defined local subspaces of the face. The output local predictions form a categorical expression-driven high-level representation that we call Local Expression Predictions (LEPs). LEPs can be combined to describe categorical facial expressions as well as Action Units (AUs). Furthermore, LEPs can be weighted by confidence scores provided by an autoencoder network. Such network is trained to locally capture the manifold of the non-occluded training data in a hierarchical way. Extensive experiments show that the proposed LEP representation yields high descriptive power for categorical expressions and AU occurrence prediction, and leads to interesting perspectives towards the design of occlusion-robust and confidence-aware FER systems.

연구 동기 및 목표

정적 이미지 기반 얼굴 표정 인식(FER) 및 액션 유닛(AU) 탐지에서 부분적 얼굴 가림 문제를 해결한다.
실세계의 변동성(가림, 형태적 차이, 훈련 데이터 커버리지 부족 등)으로 인해 어려움을 겪는 기존 FER 시스템의 한계를 극복한다.
표현 중심의 고수준 표현(LEPs)을 개발하여 국소적 얼굴 패턴을 신뢰도 인식 가중치로 캡처함으로써 내성성을 향상시킨다.
다양체 학습과 국소 예측 모델을 통합하여 실시간, 신뢰도 인식 FER 및 AU 탐지 기능을 제공한다.
합성 가림 데이터에 의존하지 않고도 실제 환경에서의 일반화가 가능하고 확장성이 뛰어나며 효율적인 프레임워크를 제공한다.

제안 방법

얼굴의 공간적으로 정의된 국소 하위영역(LEPs)에서 랜덤 포레스트를 훈련하여 분류된 표정과 AU 존재 여부를 예측한다.
계층적 오토인코더 네트워크를 사용하여 핵심 특징점 주변의 비면 얼굴 데이터 다양체를 학습하고, 복원 오차를 신뢰도 점수로 삼는다.
오토인코더의 복원 오차를 사용하여 LEP 예측을 가중하여, 보정된 국소 예측(WLS-RF 프레임워크)을 생성한다.
신뢰도 점수를 최종 의사결정 과정에 통합하여, 가림 상황에서 신뢰도가 낮은 국소 예측을 낮게 평가한다.
다양한 데이터셋(CK+, BU4D, DISFA)을 활용하여 분류된 FER 및 AU 탐지에 대한 평가를 수행한다.
다중 스레딩 및 효율적인 정렬 알고리즘을 통해 계산 효율성을 최적화하여, 단일 CPU에서 30 fps 이상의 성능을 달성한다.

실험 결과

연구 질문

RQ1공간적으로 정의된 국소 얼굴 하위영역(LEPs)이 부분적 가림에 대해 표정 인식의 내성성을 향상시킬 수 있는가?
RQ2계층적 오토인코더에서 유도된 신뢰도 점수가 가림 상황에서 예측 신뢰도를 효과적으로 측정할 수 있는가?
RQ3신뢰도 가중 LEP를 통합하면 분류된 표정 인식과 AU 탐지에서 성능 향상이 이루어지는가?
RQ4제안된 방법은 훈련 중에 볼 수 없었던 실제 세계의 가림 상황에 일반화될 수 있는가? 합성 가림 데이터에 의존하지 않는가?
RQ5이 프레임워크의 계산 부담은 모델 복잡도에 따라 어떻게 변화하며, 실시간 영상 처리를 지원할 수 있는가?

주요 결과

제안된 WLS-RF 프레임워크는 다양한 벤치마크에서 가림에 강건한 분류된 표정 인식 분야에서 최신 기준 수준의 성능을 달성한다.
계층적 오토인코더에서 유도된 신뢰도 점수는 특히 눈이나 입과 같은 가림 영역에서 신뢰도가 낮은 예측을 효과적으로 식별한다.
가림 영역(예: 눈 가림 상황에서 AU6 및 AU9)에서 낮은 신뢰도가 일관되게 관찰되며, 이는 시각적 직관과 데이터 분포와 일치한다.
1000개의 트리로 구성된 LEP 모델을 사용할 경우 단일 CPU에서 30 fps 이상의 속도로 시스템이 실행되어 실시간 처리 가능성을 입증한다.
훈련 스케일링이 잘 되어 있으며, 8,000장 이상의 이미지에서 LEP 학습은 약 3시간, 오토인코더 학습은 약 12시간, 50개 트리로 AU 탐지는 약 1시간이 소요된다.
신뢰도 가중 LEP 표현은 가림 외에도 일반화 가능하며, 조명 변화 및 자세 변화 처리 가능성도 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.