[논문 리뷰] Supervision-by-Registration: An Unsupervised Approach to Improve the Precision of Facial Landmark Detectors
이 논문은 감독-등록(Supervision-by-Registration, SBR)을 제안하며, 이는 미분 가능한 Lucas-Kanade 광학 흐름 추적을 통해 시간적 일관성을 강제함으로써 얼굴 랜드마크 검출기 정밀도를 향상시키는 비지도 학습 방법이다. 현재 프레임의 검출 결과와 이전 프레임에서 추적된 랜드마크를 정렬하는 데 사용되는 등록 손실에서 기울기를 역전파함으로써 SBR는 인간의 레이블이 필요 없이 영상 및 이미지 검출 정확도를 향상시키며, 영상 시퀀스에서의 진동을 크게 감소시킨다.
In this paper, we present supervision-by-registration, an unsupervised approach to improve the precision of facial landmark detectors on both images and video. Our key observation is that the detections of the same landmark in adjacent frames should be coherent with registration, i.e., optical flow. Interestingly, the coherency of optical flow is a source of supervision that does not require manual labeling, and can be leveraged during detector training. For example, we can enforce in the training loss function that a detected landmark at frame$_{t-1}$ followed by optical flow tracking from frame$_{t-1}$ to frame$_t$ should coincide with the location of the detection at frame$_t$. Essentially, supervision-by-registration augments the training loss function with a registration loss, thus training the detector to have output that is not only close to the annotations in labeled images, but also consistent with registration on large amounts of unlabeled videos. End-to-end training with the registration loss is made possible by a differentiable Lucas-Kanade operation, which computes optical flow registration in the forward pass, and back-propagates gradients that encourage temporal coherency in the detector. The output of our method is a more precise image-based facial landmark detector, which can be applied to single images or video. With supervision-by-registration, we demonstrate (1) improvements in facial landmark detection on both images (300W, ALFW) and video (300VW, Youtube-Celebrities), and (2) significant reduction of jittering in video detections.
연구 동기 및 목표
- 얼굴 랜드마크 검출에서 정확도가 떨어지고 일관성이 없는 인간의 레이블로 인해 검출기 정밀도가 제한되고 영상에서 진동이 발생하는 문제를 해결하기 위해.
- 비용이 많이 들고 오류가 발생하기 쉬운 수동 레이블에 의존하지 않고도 검출기 성능을 향상시키는 방법을 개발하기 위해.
- 대규모의 레이블이 없는 영상 데이터를 활용하여 검출기의 일반화 능력과 시간적 안정성을 향상시키기 위해.
- 이웃 프레임 간의 시간적 일관성에 기반한 훈련 신호를 제공하기 위해 광학 흐름을 대체 감독 신호로 활용하기 위해.
제안 방법
- 이 방법은 전방 전파에서 광학 흐름 기반의 랜드마크 추적을 수행하고, 시간적 일관성을 강제하기 위해 기울기를 역전파하는 미분 가능한 Lucas-Kanade(LK) 레이어를 도입한다.
- 등록 손실은 현재 프레임에서 직접 검출된 랜드마크와 이전 프레임에서 LK 연산을 통해 추적된 랜드마크 사이의 L2 거리로 정의된다.
- 손실은 광학 흐름이 전진-후진 일致성 검사를 통과한 랜드마크에 대해서만 적용되어 신뢰할 수 있는 감독을 보장한다.
- 레이블이 있는 데이터에서의 표준 감독과 레이블이 없는 영상에서의 새로운 등록 손실을 조합한 손실 함수를 사용해 검출기를 종합적으로 훈련시킨다.
- 기울기 갱신 과정은 검출기가 지상 진실과 가까운 결과를 출력할 뿐 아니라, 프레임 간에 시간적으로 일관된 결과를 만들어내도록 유도한다.
- 추론 시 후처리나 순환 신경망을 사용하지 않아도 되며, 시간적 안정성이 훈련 단계에서 이미 내장되어 있다.
실험 결과
연구 질문
- RQ1인간의 레이블 없이도 얼굴 랜드마크 검출의 시간적 일관성을 자가 감독 신호로 사용할 수 있는가?
- RQ2광학 흐름 일관성 강제가 이미지 및 영상 모두에서 검출기 정밀도를 어떻게 향상시키는가?
- RQ3기존의 검출 기준 대비 이 방법이 영상 시퀀스에서의 진동을 얼마나 줄이는가?
- RQ4가짜 레이블이 노이즈가 있거나 잘못되었을 경우, 이 방법은 자가 훈련과 어떻게 비교되는가?
주요 결과
- SBR는 시각적으로 제시된 영상에서 보여지듯이 영상 검출에서 진동을 크게 감소시킨다. 평가 지표(NME, AUC)는 다소 향상되었지만, 이는 시각적 결과에 비해 크지 않다.
- 300VW 및 YouTube-Celebrities 영상 벤치마크에서 SBR는 인간 레이블만으로 훈련된 기준 모델보다 랜드마크 검출 정밀도를 향상시켰다.
- 완벽한 레이블이 있는 합성 데이터셋 'SyntheticFace'에서 SBR로 훈련된 모델는 다양한 노이즈 수준에서도 거의 동일한 성능을 보였으며, 이는 레이블 오류에 대한 강건성을 시사한다.
- 노이즈가 있는 테스트 레이블에서 평가했을 때, SBR 모델는 가짜 레이블에 대한 피드백이 없는 자가 훈련 기반 모델보다 성능이 뛰어났다. 이는 자가 훈련이 오류 누적 문제를 악화시키기 때문이다.
- 제거 분석 결과, 추적된 랜드마크에서 기울기를 忽시한 경우(자기 훈련과 동일한 방식) 검출기 오차가 증가함을 확인했다. YouTube Celebrities에서 NME는 4.74에서 5.45로 증가하여 SBR에서 전체 기울기 피드백의 유용성을 확인하였다.
- 추론 시 후처리, 광학 흐름 추적, 순환 유닛을 요구하지 않아도 되며, 일반화 능력과 안정성이 향상되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.