QUICK REVIEW

[논문 리뷰] BiHand: Recovering Hand Mesh with Multi-stage Bisected Hourglass Networks

Lixin Yang, Jiasen Li|arXiv (Cornell University)|2020. 08. 12.

Human Pose and Action Recognition참고 문헌 15인용 수 26

한 줄 요약

BiHand는 단일 RGB 이미지에서 3D 손 메시를 복원하기 위해 종단 간(end-to-end), 다단계 분할형 아워글라스 네트워크를 제안한다. 이는 연속적인 2D 시딩, 3D 리프팅, 메시 생성 단계를 통해 기존의 기하학적 신호들(예: 2D 키포인트 및 실루엣, 3D 관절 및 깊이)을 공동 최적화할 수 있도록 새로운 분할 설계를 도입한다. RHD에서 AUC 0.951, STB에서 AUC 0.997을 달성하여 도전적인 조건에서도 뛰어난 강건성을 입증한다.

ABSTRACT

3D hand estimation has been a long-standing research topic in computer vision. A recent trend aims not only to estimate the 3D hand joint locations but also to recover the mesh model. However, achieving those goals from a single RGB image remains challenging. In this paper, we introduce an end-to-end learnable model, BiHand, which consists of three cascaded stages, namely 2D seeding stage, 3D lifting stage, and mesh generation stage. At the output of BiHand, the full hand mesh will be recovered using the joint rotations and shape parameters predicted from the network. Inside each stage, BiHand adopts a novel bisecting design which allows the networks to encapsulate two closely related information (e.g. 2D keypoints and silhouette in 2D seeding stage, 3D joints, and depth map in 3D lifting stage, joint rotations and shape parameters in the mesh generation stage) in a single forward pass. As the information represents different geometry or structure details, bisecting the data flow can facilitate optimization and increase robustness. For quantitative evaluation, we conduct experiments on two public benchmarks, namely the Rendered Hand Dataset (RHD) and the Stereo Hand Pose Tracking Benchmark (STB). Extensive experiments show that our model can achieve superior accuracy in comparison with state-of-the-art methods, and can produce appealing 3D hand meshes in several severe conditions.

연구 동기 및 목표

perspective 모순과 복잡한 손 기하학으로 인해 정의되지 않은 단일 RGB 이미지에서 3D 손 메시 복원 문제를 해결한다.
2D 키포인트, 실루엣, 깊이, 관절 회전 등의 기하학적 신호를 중간 지도 신호로 통합하여 3D 손 추정의 정확도와 강건성을 향상시킨다.
각 단계에서 밀접하게 관련된 그러나 서로 다른 기하학적 표현을 공동 최적화할 수 있도록 새로운 분할 아키텍처를 개발한다.
희소한 지정된 MANO 매개변수 지도 신호의 한계를 극복하기 위해, 형태 인식 역운동학 네트워크를 훈련하기 위해 100만 개의 위치-회전 쌍을 합성한다.
자기 가림, 잘림, 어두운 조명 조건과 같은 어려운 조건에서도 3D 손 메시 복원에서 최고 성능을 달성한다.

제안 방법

2D 시딩(SeedNet), 3D 리프팅(LiftNet), 메시 생성(SIKNet)의 세 단계 프레임워크를 제안하며, 각 단계에서 분할형 아워글라스 설계를 사용해 두 가지 관련 기하학적 입력을 병렬 처리한다.
각 단계에서 기능 흐름을 두 개의 브랜치로 분할하는 분할 설계를 도입한다. 예를 들어 첫 번째 단계에서는 2D 키포인트와 실루엣, 두 번째 단계에서는 3D 관절과 깊이 맵, 세 번째 단계에서는 관절 회전과 형태 매개변수를 처리하여 보완적인 기하학적 세부 정보를 공동 최적화한다.
예측된 3D 관절 위치를 MANO 손 모델 매개변수로 매핑하기 위해 형태 인식 역운동학 네트워크(SIKNet)를 사용하여 노이즈 및 추정 오차에 대한 강건성을 향상시킨다.
SIKNet 훈련을 위한 완전한 지도 학습을 가능하게 하기 위해 100만 개의 합성 3D 관절 위치-회전 매개변수 쌍을 포함한 대규모 SIK-1M 데이터셋을 생성한다.
2D 키포인트, 실루엣, 3D 관절, 깊이 맵, MANO 매개변수 등의 보조 지도 신호를 포함한 다중 작업 손실을 사용하여 훈련 안정성과 일반화 성능을 향상시킨다.
초기 학습률 1e-5로 50 에포크 동안 진행되는 단계별 사전 훈련과 종단 간 미세조정 전략을 채택한다.

실험 결과

연구 질문

RQ1다단계 분할형 네트워크 아키텍처가 보완적인 기하학적 신호를 공동으로 모델링함으로써 단일 RGB 이미지에서 3D 손 메시 복원 성능을 향상시킬 수 있는가?
RQ2제안된 분할 설계가 3D 손 추정의 다양한 단계에서 최적화 안정성과 강건성을 향상시키는 데 얼마나 효과적인가?
RQ3형태 인식 역운동학 네트워크가 3D 관절 위치에서 MANO 매개변수 예측 정확도를 얼마나 향상시킬 수 있는가?
RQ4실제 MoCap 데이터가 부족한 상황에서 관절 회전 추정을 위한 대규모 합성 지도 데이터를 사용할 경우 성능 향상가 얼마나 기여하는가?
RQ5자기 가림, 잘림, 저조도 조건과 같은 어려운 실세계 시나리오에 대해 제안된 프레임워크가 일반화 가능한가?

주요 결과

BiHand는 렌더링된 손 데이터셋(RHD)에서 AUC 0.951을 달성하여, 직접 회귀나 운동학 사슬 모델링 기반 기존 방법들을 능가하는 최고 성능을 기록했다.
스테레오 손 자세 추적 벤치마크(STB)에서 BiHand는 AUC 0.997을 기록하여 복잡한 다중 시점 환경에서도 뛰어난 강건성과 정확도를 입증했다.
제거 실험 결과, 깊이 및 실루엣 예측 브랜치의 포함이 3D 리프팅 성능 향상에 크게 기여하며, 특히 SIKNet을 통한 회전 예측에서 가장 큰 성능 향상이 관찰되었다.
자기 가림, 잘림, 어두운 조명 조건과 같은 심각한 상황에서도 정성 있는 3D 손 메시를 생성할 수 있었으며, 이는 정성적 결과에서 확인되었다.
SIK-1M 합성 데이터셋은 실제 MoCap 데이터에서 관절 위치와 회전이 짝지어진 경우가 희소한 상황에서 SIKNet 훈련을 위한 효과적인 완전 지도 학습을 가능하게 했다.
분할형 아워글라스 설계 덕분에 최적화가 더 안정적이고 정확해졌으며, 보조 브랜치를 추가할 때마다 다양한 제거 실험 설정에서 일관된 성능 향상이 관찰되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.