QUICK REVIEW

[논문 리뷰] Joint Action Unit localisation and intensity estimation through heatmap regression

Enrique Sánchez, Georgios Tzimiropoulos|arXiv (Cornell University)|2018. 05. 09.

Face recognition and analysis인용 수 31

한 줄 요약

이 논문은 단일 아이언거글라스 네트워크를 통해 히트맵 회귀를 이용한 병합된 얼굴 행동단위(AU) 국소화 및 강도 추정 방법을 제안한다. 각 AU에 대해 강도 및 위치에 따라 달라지는 2차원 가우시안을 사용해 히트맵을 회귀함으로써, BP4D 데이터셋에서 평균 ICC 0.68의 최신 기술 수준(SOTA) 성능을 달성하며, 랜드마크 오차에 대해 뛰어난 내성과 더 깊거나 별도의 AU 모델들보다 뛰어난 효율성을 보여준다.

ABSTRACT

This paper proposes a supervised learning approach to jointly perform facial Action Unit (AU) localisation and intensity estimation. Contrary to previous works that try to learn an unsupervised representation of the Action Unit regions, we propose to directly and jointly estimate all AU intensities through heatmap regression, along with the location in the face where they cause visible changes. Our approach aims to learn a pixel-wise regression function returning a score per AU, which indicates an AU intensity at a given spatial location. Heatmap regression then generates an image, or channel, per AU, in which each pixel indicates the corresponding AU intensity. To generate the ground-truth heatmaps for a target AU, the facial landmarks are first estimated, and a 2D Gaussian is drawn around the points where the AU is known to cause changes. The amplitude and size of the Gaussian is determined by the intensity of the AU. We show that using a single Hourglass network suffices to attain new state of the art results, demonstrating the effectiveness of such a simple approach. The use of heatmap regression allows learning of a shared representation between AUs without the need to rely on latent representations, as these are implicitly learned from the data. We validate the proposed approach on the BP4D dataset, showing a modest improvement on recent, complex, techniques, as well as robustness against misalignment errors. Code for testing and models will be available to download from https://github.com/ESanchezLozano/Action-Units-Heatmaps.

연구 동기 및 목표

깊이 학습 모델의 복잡성과 랜드마크 정렬에 민감한 한계를 해결하기 위해 얼굴 행동단위(AU) 강도 추정에 있어 복잡하고 정렬에 민감한 딥러닝 모델의 문제점을 다루는 것.
비지도 또는 잠재 표현에 의존하지 않고 AU를 동시에 국소화하고 강도를 추정하는 것.
AU 인식에서 얼굴 랜드마크의 잘못된 국소화에 대한 일반화 및 내성 향상.
다중 네트워크나 더 깊은 아키텍처에 비해 성능을 유지하거나 향상시키면서 모델 복잡도를 줄이는 것.
히트맵 회귀를 통한 공유된 엔드 투 엔드 학습된 표현이 작업 특화 또는 별도의 AU 모델보다 뛰어나지 못할지 탐색하는 것.

제안 방법

이 방법은 각 픽셀의 값이 특정 AU의 공간적 위치에서의 강도를 나타내는, 별도의 AU 점수 맵을 예측하기 위해 히트맵 회귀를 사용한다.
정답 히트맵은 AU별로 얼굴 랜드마크 위치에 2차원 가우시안을 배치하여 생성되며, 강도 레이블에 따라 진폭과 확산이 조절된다.
단일 아이언거글라스 네트워크가 동시에 모든 AU 히트맵을 회귀하도록 훈련되어 AU 간에 공유된 표현을 학습한다.
예측된 히트맵과 정답 히트맵 간의 L2 손실을 사용해 BP4D 데이터셋에서 네트워크를 엔드 투 엔드로 훈련한다.
입력 이미지가 네트워크에 입력되기 전에 먼저 얼굴 랜드마크가 추정되고, 이를 기반으로 표준화된 얼굴 형태로 이미지를 정렬한다.
랜드마크 오차를 적용하여 모델의 랜드마크 오차에 대한 내성 여부를 평가한다.

실험 결과

연구 질문

RQ1단일이고 가벼운 딥 네트워크가 히트맵 회귀를 통해 AU 국소화와 강도를 동시에 회귀시켜, 더 복잡하거나 다중 분지 또는 더 깊은 아키텍처를 능가할 수 있는가?
RQ2강도 조절된 가우시안을 사용한 히트맵 회귀는 표준 AU 강도 추정 방법에 비해 성능과 내성 면에서 향상되는가?
RQ3얼굴 랜드마크의 잘못된 국소화는 AU 인식에서 흔한 실패 원인인데, 모델이 얼마나 내성적인가?
RQ4공유된 표현이 병합된 히트맵 회귀를 통해 학습되면, 별도의 AU 별로 훈련된 개별 모델보다 뛰어나지 못할까?
RQ5정답 히트맵 생성 방식(예: 가우시안 기반)의 선택이 AU 추정 작업의 최종 성능에 어떤 영향을 미치는가?

주요 결과

제안된 방법은 BP4D 데이터셋에서 평균 ICC 0.68의 성능을 달성하여, ResNet-18(ICC 0.64) 및 2DC(ICC 0.66)를 포함한 최신 기술 수준의 방법들을 능가한다.
각 AU 별로 별도의 아이언거글라스 네트워크를 훈련하는 것보다 3% 성능 향상을 달성했으며, 계산 비용은 다섯 배 적다.
랜드마크 노이즈가 표준편차 13 픽셀 이내에서는 안정적인 성능을 유지하며, 그 이상일 경우에만 뚜렷한 성능 저하가 발생한다.
심지어 랜드마크 오차가 55 픽셀에 이르는 큰 수준에서도 모델은 AU 국소화에서 뛰어난 내성을 보이며, 그림 5에서 올바른 히트맵 활성화가 관찰된다.
히트맵 회귀를 사용하는 단순한 단일 네트워크 아키텍처가 더 복잡한 모델들보다 AU 강도 추정에서 뛰어난 성능을 달성할 수 있음을 보여준다.
히트맵 생성 시 크기가 변하는 가우시안의 사용은 강도 정보를 효과적으로 인코딩하여, 네트워크가 공간적 및 강도 인식 표현을 학습할 수 있도록 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.