Skip to main content
QUICK REVIEW

[논문 리뷰] Real-time Facial Surface Geometry from Monocular Video on Mobile GPUs

Yury Kartynnik, Artsiom Ablavatski|arXiv (Cornell University)|2019. 07. 15.
Face recognition and analysis참고 문헌 6인용 수 58
한 줄 요약

본 논문은 단일 단안 비디오 프레임으로부터 밀집 468포인트 3D 얼굴 메쉬를 예측하는 신경망 모델을 제시하며, 여러 경량 변형을 통해 모바일 GPU에서 실시간 추론에 최적화된다.

ABSTRACT

We present an end-to-end neural network-based model for inferring an approximate 3D mesh representation of a human face from single camera input for AR applications. The relatively dense mesh model of 468 vertices is well-suited for face-based AR effects. The proposed model demonstrates super-realtime inference speed on mobile GPUs (100-1000+ FPS, depending on the device and model variant) and a high prediction quality that is comparable to the variance in manual annotations of the same image.

연구 동기 및 목표

  • 단일 RGB 프레임에서 AR를 위한 실시간 3D 얼굴 표면 기하학 캡처를 촉진하고 가능하게 한다.
  • 표현력 있는 AR 효과에 적합한 468포인트 얼굴 메쉬 토폴로지를 제안한다.
  • 주석자 간 변동성에 비견되는 정확도로 모바일 GPU에서의 실시간 추론을 달성한다.
  • 얼굴 탐지 및 정렬에서 메쉬 예측 및 시간적 안정화에 이르는 엔드 투 엔드 파이프라인을 제공한다.

제안 방법

  • 자른 256×256(풀) 또는 128×128(경량) 입력으로부터 468 메쉬 정점의 3D 좌표를 회귀하기 위해 잔차 신경망(residual neural network)을 사용한다.
  • 이미지 공간에서 x,y 좌표를 생성하고, 기준 평면에 대한 깊이로서 z를 도출하며, 종횡비를 유지하기 위한 재스케일링을 수행한다.
  • 경량 얼굴 탐지기와 얼굴 정렬 단계로 입력 프레임을 자르고 정렬한다.
  • 비디오 시퀀스의 흔들림을 줄이기 위해 각 랜드마크 좌표에 1차원 시간 필터(1 Euro filter에서 영감을 얻은)를 적용한다.
  • 부트스트래핑을 위한 합성 3DMM 렌더링과 2D 의미론적 랜드마크를 사용한 학습 후, 현장 데이터에서의 반복적 정제를 수행한다.

실험 결과

연구 질문

  • RQ1모노큘러 비디오에서 468포인트의 밀집 3D 얼굴 메시를 모바일 하드웨어에서 높은 충실도로 추정할 수 있는가?
  • RQ2가벼운 아키텍처가 서로 다른 GPU와 CPU를 가진 기기에서 실시간 추론에 충분한가?
  • RQ3제안된 시간적 필터링이 비디오에서 랜드마크 궤적의 시각적 안정성에 어떤 영향을 미치는가?
  • RQ4모바일 맥락에서 입력 해상도가 정확도와 속도에 미치는 영향은 무엇인가?
  • RQ5합성 + 정제 학습이 완전한 계량 정확도 없이 AR 응용을 위한 시각적으로 그럴듯한 깊이를 달성할 수 있는가?

주요 결과

  • 전체 모델은 2D 좌표에서 3.96%의 안눈 간 거리(IOD) 평균 절대 오차(MAD)를 달성하며, 깊이는 합성 감독으로 학습된다.
  • 256×256 입력에서 iPhone XS에서 프레임당 2.5 ms, Pixel 3에서 7.4 ms로 GPU-타깃 전체 모델이 실행된다.
  • 128×128 경량 모델은 1 ms(iPhone XS)와 3.4 ms(Pixel 3)에서 5.15% IOD MAD로 달성한다.
  • 가장 경량의 모델은 128×128에서 0.7 ms(iPhone XS)와 2.6 ms(Pixel 3)로 5.29% IOD MAD를 달성한다.
  • 시간적 필터링은 비디오 시퀀스에서 프레임 간 흔들림을 줄이면서 반응성을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.