[논문 리뷰] ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
ViTPose는 일반 비전 트랜스포머가 경량 디코더와 함께 인간 자세 추정의 강력하고 확장 가능한 베이스라인이 될 수 있음을 보여주며, MS COCO에서 최첨단 결과를 달성하고 유연한 학습 및 전이 학습을 가능하게 한다.
Although no specific domain knowledge is considered in the design, plain vision transformers have shown excellent performance in visual recognition tasks. However, little effort has been made to reveal the potential of such simple structures for pose estimation tasks. In this paper, we show the surprisingly good capabilities of plain vision transformers for pose estimation from various aspects, namely simplicity in model structure, scalability in model size, flexibility in training paradigm, and transferability of knowledge between models, through a simple baseline model called ViTPose. Specifically, ViTPose employs plain and non-hierarchical vision transformers as backbones to extract features for a given person instance and a lightweight decoder for pose estimation. It can be scaled up from 100M to 1B parameters by taking the advantages of the scalable model capacity and high parallelism of transformers, setting a new Pareto front between throughput and performance. Besides, ViTPose is very flexible regarding the attention type, input resolution, pre-training and finetuning strategy, as well as dealing with multiple pose tasks. We also empirically demonstrate that the knowledge of large ViTPose models can be easily transferred to small ones via a simple knowledge token. Experimental results show that our basic ViTPose model outperforms representative methods on the challenging MS COCO Keypoint Detection benchmark, while the largest model sets a new state-of-the-art. The code and models are available at https://github.com/ViTAE-Transformer/ViTPose.
연구 동기 및 목표
- 도메인 특화 백본 없이 일반 비전 트랜스포머를 자세 추정에 대해 탐구하도록 동기를 부여한다.
- 경량 디코더를 갖춘 간단하면서도 효과적인 ViTPose 아키텍처를 시연한다.
- 데이터 세트와 사전 학습 방식에 걸친 ViTPose의 확장성, 학습 유연성 및 전이 가능성을 보여준다.
- MS COCO Keypoint 데이터셋에서 강력한 성능 벤치마크를 구축하고 모델 크기, 속도, 정확도 간의 트레이드오프를 분석한다.
제안 방법
- MASKED 이미지 모델링(MAE)으로 사전 학습된 일반 비계층적 비전 트랜스포머 백본을 사용하여 사람 인스턴스의 특징을 추출한다.
- 가벼운 디코더를 연결하여 특징을 업샘플링하고 두 가지 가능한 디코더(전통적인 2-deconv 블록 또는 더 간단한 업샘플링 + 3x3 컨브)로 키포인트 히트맵을 회귀한다.
- 백본 크기(ViT-B/L/H 및 ViTAE-G)와 특징 차원을 변화시켜 확장성을 탐구한다.
- MAE로 ImageNet-1K, COCO, AI Challenger 또는 자세 전용 데이터에 대해 사전 학습하여 데이터 유연성을 조사한다.
- 정확도와 메모리 사용량의 균형을 맞추기 위해 전체(attention), 윈도우, 시프트-윈도우, 풀링 전략의 트레이드오프를 검토한다.
- 출력 증류와 새로운 토큰 기반 증류 방법을 통해 큰 ViTPose 모델에서 작은 ViTPose 모델로의 지식 전이를 시연한다.
실험 결과
연구 질문
- RQ1CNN 기반 백본 없이 일반 비전 트랜스포머 백본과 경량 디코더만으로 COCO에서 경쟁력 있거나 최첨단 자세 추정이 가능할까?
- RQ2모델 크기, 입력/해상도, 그리고 어텐션 메커니즘이 ViTPose의 성능과 처리량에 어떤 영향을 미치는가?
- RQ3자세 추정을 위한 ViTPose 성능에 대한 사전 학습 데이터와 미세 조정 전략의 영향은 무엇인가?
- RQ4토큰 기반 증류를 통해 큰 ViTPose 모델에서 작은 모델로의 지식 전이가 효과적으로 달성될 수 있는가?
주요 결과
- 가장 큰 ViTPose 모델(ViTPose-G)과 MS COCO + AI Challenger 데이터로 MS COCO test-dev에서 80.9 AP를 달성했다.
- ViTPose는 모델 크기가 커질수록 성능이 일관되게 향상되는 강력한 확장성을 보여준다(ViT-B → ViT-H → ViTAE-G).
- 강력한 비전 트랜스포머 백본을 사용할 때 간단한 디코더도 더 복잡한 디코더의 성능에 도달할 수 있다(0.3 AP 미만 하락).
- 하위 자세 데이터(COCO + AI Challenger)에서의 사전 학습은 ImageNet-1K 사전 학습과 같은 효과를 낼 수 있으며, 종종 데이터 효율 면에서 비슷하거나 더 나을 수 있다.
- 토큰 기반 증류는 큰 모델에서 작은 모델로의 지식 전이를 위한 측정 가능한 이점을 제공한다(예: 0.2–0.5 AP 이득).
- 다중 데이터셋 학습으로 추가 개선이 가능하다(예: ViTPose-B에서 75.8 AP에서 77.1 AP로).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.