Skip to main content
QUICK REVIEW

[논문 리뷰] Coding Facial Expressions with Gabor Wavelets (IVC Special Issue)

Michael J. Lyons, Miyuki Kamachi|arXiv (Cornell University)|2020. 09. 13.
Face and Expression Recognition참고 문헌 19인용 수 41
한 줄 요약

이 논문은 얼굴에 정렬된 다스케일 다방향 가보르 웨이블렛 뱅크를 사용해 얼굴 표정을 인코딩하고, 이 표현이 인간의 표정에 대한 의미론적 평점과 상관관계가 있음을 보이며, 범주적 및 차원적 감정 표현 간의 다리를 시사한다.

ABSTRACT

We present a method for extracting information about facial expressions from digital images. The method codes facial expression images using a multi-orientation, multi-resolution set of Gabor filters that are topographically ordered and approximately aligned with the face. A similarity space derived from this code is compared with one derived from semantic ratings of the images by human observers. Interestingly the low-dimensional structure of the image-derived similarity space shares organizational features with the circumplex model of affect, suggesting a bridge between categorical and dimensional representations of facial expression. Our results also indicate that it would be possible to construct a facial expression classifier based on a topographically-linked multi-orientation, multi-resolution Gabor coding of the facial images at the input stage. The significant degree of psychological plausibility exhibited by the proposed code may also be useful in the design of human-computer interfaces. <strong>n.b.</strong> <strong>Facial images in this article are subject to specific terms of use and may not be reused without permission, regardless of the license applied to the document as a whole.</strong>

연구 동기 및 목표

  • 인간-컴퓨터 상호작용을 위한 자동 얼굴 표현 처리의 동기를 부여한다.
  • 얼굴 영상에 대해 지형적으로 정렬된 가보르 웨이블렛 인코딩 방식을 제안한다.
  • 이미지 기반 유사도와 인간의 의미론적 평가를 비교하여 가보르 코드의 충실도를 평가한다.

제안 방법

  • 각 256x256 이미지를 다해상도 다방향 가보르 필터 뱅크와 컨볼브한다(세 가지 공간 주파수; 여섯 가지 방향).
  • 홀/짝 응답을 진폭 R_k로 결합하고illumination 의존도를 줄이기 위해 코사인 필터의 기여를 빼고, 대응되는 얼굴 지점 간 가보르 벡터의 정규화된 내적으로 유사도 측정치를 계산한다.
  • 얼굴 기하학을 34-노드 격자에 표현하고 격자 단위 유사도는 대응 지점의 평균으로 계산한다.
  • 이미지에서 도출된 가보르 유사도를 리커트 척도 판단으로 얻은 기본 표현의 인간 의미론적 평점과 비교한다.
  • 비계량 다차원 스케일링을 사용해 가보르 및 의미론적 유사도 데이터를 두 차원으로 내재화하여 구조를 조사한다.

실험 결과

연구 질문

  • RQ1가보르 기반 얼굴 표정 표상이 감정에 대한 인간의 의미론적 판단과 일치하는 유사성 구조를 산출하는가?
  • RQ2가보르 표상이 심리학적 모델과 유사한 저차원 구성(예: 원형 모형과 유사한)을 얼굴 표정에서 드러낼 수 있는가?
  • RQ3가보르 코드는 비순수 표정 및 조명 변화에 강건하여 분류기 설계 가능성을 제공하는가?
  • RQ4가보르 기반 유사도가 특징 점 변위에 기반한 기하학적 제어와 어떻게 비교되는가?

주요 결과

  • 가보르 기반 유사도는 인간의 의미론적 평가와 유의하게 상관관계를 보였으며, 공포 포함 시 평균 스피어먼 상관계수는 약 0.568, 공포를 제외하면 0.679이다.
  • 기하학 기반 제어는 평균 상관이 더 낮게 나타났다(공포 포함 0.366; 공포 제외 0.462).
  • nMDS는 가보르 부호화된 데이터와 의미론적 데이터가 기본 표현 범주로 군집화되고, 기쁨-불쾌감 축과 각성 관련 차원을 대략 구분하는 저차원 구조를 드러낸다.
  • 가보르 코드는 인간 판단과의 일치를 기하학만 사용한 경우보다 더 잘 수행하여 얼굴 표정 코딩에 대한 심리학적 타당성을 뒷받침한다.
  • 공포 표현은 변동성이 더 커 일부 비교에서 상관 강도를 낮추며, 포즈/인식의 도전을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.