QUICK REVIEW

[논문 리뷰] Model-based Deep Hand Pose Estimation

Xingyi Zhou, Qingfu Wan|arXiv (Cornell University)|2016. 06. 22.

Hand Gesture Recognition Systems참고 문헌 16인용 수 83

한 줄 요약

이 논문은 예측된 관절 위치의 기하학적 타당성을 강제하기 위해 가변형이 아닌, 미분 가능한 정방향 운동학 계층을 통합한 새로운 엔드 투 엔드 딥 러닝 프레임워크를 제안한다. 3D 손 모델의 비선형 운동학 제약 조건을 직접 네트워크에 통합함으로써, 후처리 최적화를 필요로 하지 않고도 NYU 및 ICVL 데이터셋에서 최신 기술 수준의 정확도를 달성하며, 초도부터 물리적으로 타당한 자세를 보장한다.

ABSTRACT

Previous learning based hand pose estimation methods does not fully exploit the prior information in hand model geometry. Instead, they usually rely a separate model fitting step to generate valid hand poses. Such a post processing is inconvenient and sub-optimal. In this work, we propose a model based deep learning approach that adopts a forward kinematics based layer to ensure the geometric validity of estimated poses. For the first time, we show that embedding such a non-linear generative process in deep learning is feasible for hand pose estimation. Our approach is verified on challenging public datasets and achieves state-of-the-art performance.

연구 동기 및 목표

학습 기반의 손 자세 추정 방법이 운동학 제약 조건을 忽시함으로써 기하학적으로 타당하지 않은 자세를 생성하는 한계를 해결하기 위해.
손 모델의 생성 과정을 직접 네트워크에 통합함으로써, 역운동학과 같은 별도의 열악한 후처리 단계가 필요 없도록 하기 위해.
비선형 손 모델 기하학을 활용하는 딥 신경망의 엔드 투 엔드 학습을 가능하게 하여 자세 정확도와 타당성을 향상시키기 위해.
비선형, 미분 가능한 정방향 운동학이 조인트된 자세 추정에 효과적으로 통합될 수 있음을 입증하기 위해.

제안 방법

관절 각도에서 3D 관절 좌표로 매핑하는 데 사용되는 동차 변환 행렬을 사용하는, 가변형이 아닌, 미분 가능한 정방향 운동학 계층을 도입한다.
해골을 따라 적용된 회전 및 이동 행렬의 곱으로 각 관절의 위치를 계산하기 위해 트리 구조의 운동학 체인을 사용한다.
관절 위치 손실과 중간 자세 표현에 대한 추가 정규화 손실을 사용하여, 표준 백프로파게이션을 통해 엔드 투 엔드 학습을 수행한다.
예측된 관절 각도를 3D 관절 좌표로 변환하기 위해 완전히 연결된 계층 이후에 정방향 운동학 계층을 적용한다.
4×4 동차 행렬을 사용하여 변환을 구현하며, 각 회전과 이동은 관절 각도와 세그먼트 길이로 매개변수화한다.
특정 관절의 회전 행렬을 그 도함수로 대체함으로써, 관절 위치가 관절 각도에 대해 미분 가능한 기울기를 유도한다.

실험 결과

연구 질문

RQ1비선형적이고, 미분 가능한 정방향 운동학 계층이 엔드 투 엔드 손 자세 추정을 위한 딥 신경망에 효과적으로 통합될 수 있는가?
RQ23D 손 모델의 기하학적 제약 조건을 네트워크에 통합함으로써, 기존의 학습 기반 방법에 비해 자세 정확도와 타당성이 향상되는가?
RQ3제안된 방법이 후처리 또는 선형 자세 사전 정보에 의존하는 최신 기술 수준의 접근법을 초월할 수 있는가?
RQ4중간 자세 표현에 대한 정규화 손실의 포함 여부가 최종 성능에 어떤 영향을 미치는가?

주요 결과

제안된 방법은 NYU 데이터셋에서 최신 기술 수준의 성능을 달성하였으며, Tompson 등(2014)과 Oberweger 등(2015a)의 이전 방법들을 능가하고, 가장 뛰어난 피드백 루프 방법(Oberweger 등 2015b)과 동등한 성능을 기록하였다.
ICVL 데이터셋에서는 Tang 등(2014)보다 뚜렷이 뛰어난 성능을 보였으며, 노이즈가 많은 애너테이션과 제한된 시점 변화로 인해 어려운 조건임에도 불구하고 Oberweger 등(2015a)과 유사한 결과를 달성하였다.
중간 자세 표현에 대한 정규화 손실을 추가함으로써, 예측된 자세의 정확도와 기하학적 타당성이 뚜렷이 향상되었다.
미분 가능한 정방향 운동학 계층을 사용함으로써, 후처리 최적화 없이도 기하학적으로 타당한 자세를 생성하는 엔드 투 엔드 학습이 가능해졌다.
비선형 운동학 제약 조건이 딥 러닝 프레임워크에 효과적으로 통합될 수 있음을 입증하였으며, 더 정확하고 물리적으로 타당한 손 자세 추정을 가능하게 하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.