[논문 리뷰] Facial Expression Recognition using Facial Landmark Detection and Feature Extraction via Neural Networks
이 논문은 얼굴 랜드마크 검출과 유클리드 거리 기반 특징 벡터를 다층 전결합 신경망(Multi-Layer Perceptron, MLP)에 입력하여 얼굴 표정 인식 시스템을 제안한다. 눈, 눈썹, 코, 입에서 유도된 고정점들을 활용하여 고도로 정확도를 달성하며, 행복과 놀람에 대해 95% 이상의 정확도를 기록한다. 결과적으로 표현적인 감정에 대해 뛰어난 성능을 보이며, 얼굴 표정의 주관성에 대한 통찰을 제공한다.
The proposed framework in this paper has the primary objective of classifying the facial expression shown by a person. These classifiable expressions can be any one of the six universal emotions along with the neutral emotion. After the initial facial localization is performed, facial landmark detection and feature extraction are applied where in the landmarks are determined to be the fiducial features: the eyebrows, eyes, nose and lips. This is primarily done using state-of-the-art facial landmark detection algorithms as well as traditional edge and corner point detection methods using Sobel filters and Shi Tomasi corner point detection methods respectively. This leads to generation of input feature vectors being formulated using Euclidean distances and trained into a Multi-Layer Perceptron (MLP) neural network in order to classify the expression being displayed. The results achieved have further dealt with higher uniformity in certain emotions and the inherently subjective nature of expression.
연구 동기 및 목표
- 모바일 애플리케이션에 적합한 저복잡도, 실시간 얼굴 표정 인식(Facial Expression Recognition, FER) 시스템을 개발하기 위해.
- 검출된 랜드마크에서 유도된 기하학적 특징을 분석하여 인간 얼굴 표정의 본질적 주관성과 변동성을 다루기 위해.
- 랜드마크 간 거리에서 유도된 수작업 특징 벡터를 사용하여 분류 정확도를 향상시키기 위해.
- KDEF 데이터셋을 사용하여 개인의 표정 변동성이 FER 성능에 미치는 영향을 평가하기 위해.
제안 방법
- 70명의 피험자가 표현한 7가지 감정(기본 감정 6종과 중립)을 포함하는 총 4900장의 이미지를 담은 Karolinska Directed Emotional Faces(KDEF) 데이터셋을 사용하였다.
- 최신 기술의 얼굴 랜드마크 검출 알고리즘에 더하여, 전통적인 Sobel 에지 검출 및 Shi-Tomasi 코너 검출을 결합하여 강력한 고정점 추출을 수행하였다.
- 핵심 얼굴 랜드마크 간 유클리드 거리(예: 눈 사이, 입 끝 사이, 눈썹 사이 등)를 사용하여 입력 특징 벡터를 생성하였으며, 이는 얼굴 표정의 기하학적 표현을 형성한다.
- Adam 옵timizer(학습률 0.005), 드롭아웃(0.3), 다중 클래스 분류를 위한 소프트맥스 출력을 사용한 다층 전결합 신경망(MLP)을 훈련시켰다.
- 학습-테스트 분할 비율을 90:10으로 설정하였으며, 일반화 성능 향상을 위해 교차 엔트로피 손실 및 L2 정규화를 적용하였다.
- 거짓 긍정률을 분석하고, 특징 벡터(V7, V10–V12)를 중앙값 기반으로 데이터 분할하여 표현 강도와 개인의 변동성을 탐구하였다.
실험 결과
연구 질문
- RQ1얼굴 랜드마크에서 유도된 기하학적 특징은 저복잡도 아키텍처에서 얼굴 표정 분류 정확도를 어떻게 향상시키는가?
- RQ2행복과 놀람과 같은 감정은 분노, 혐오, 공포, 슬픔과 비교해 얼마나 더 균일한 표정 패턴을 보이는가?
- RQ3개인의 표정 강도 변동성이 분류 성능과 거짓 긍정률에 어떤 영향을 미치는가?
- RQ4랜드마크 간 거리 기반 특징 벡터는 표현 강도를 효과적으로 포착하고 모델의 강건성을 향상시킬 수 있는가?
주요 결과
- 행복에 대해 98.2%의 참 긍정률, 놀람에 대해 95.8%의 참 긍정률을 기록하여 이 감정들의 표현 패턴이 매우 일관됨을 시사한다.
- 분노, 혐오, 공포, 슬픔는 중간 수준의 정확도(84–86%)를 보이며, 유사한 얼굴 구성이 공존함을 반영한다.
- 중립 표정은 90.1%의 정확도로 분류되어 저강도 표정에 대해 뛰어난 성능을 보였다.
- 거짓 긍정률은 행복(1.8%)과 놀람(4.2%)에서 가장 낮았고, 분노와 혐오는 각각 14.4%와 15.1%로 가장 높았다.
- V7, V10, V11, V12 특징 벡터(랜드마크 간 거리 표현) 분석 결과, 표현 강도(예: 미소 너비)가 분류 일관성과 관련이 있으며, 특히 더 표현적인 개인에서 두드러진다.
- 표현 강도 중앙값 기반 데이터 분할은 분노와 공포에 대해 성능 향상을 보였으며, 개인의 표현 스타일이 인식 결과에 상당한 영향을 미친다는 것을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.