QUICK REVIEW

[논문 리뷰] Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Siyuan Yang, Jun Liu|arXiv (Cornell University)|2026. 03. 06.

Human Pose and Action Recognition인용 수 0

한 줄 요약

S2I는 시맨틱 분할과 시간적 적층을 통해 3D 스켈레톤 시퀀스를 이미지와 같은 데이터로 변환하여 시각 사전학습 모델(MAE/DiffMAE)이 뼈대 표현을 학습하도록 하고, 형식 간 크로스-포맷 및 보편적 뼈대 학습을 가능하게 한다.

ABSTRACT

Recent advances in large-scale pretrained vision models have demonstrated impressive capabilities across a wide range of downstream tasks, including cross-modal and multi-modal scenarios. However, their direct application to 3D human skeleton data remains challenging due to fundamental differences in data format. Moreover, the scarcity of large-scale skeleton datasets and the need to incorporate skeleton data into multi-modal action recognition without introducing additional model branches present significant research opportunities. To address these challenges, we introduce Skeleton-to-Image Encoding (S2I), a novel representation that transforms skeleton sequences into image-like data by partitioning and arranging joints based on body-part semantics and resizing to standardized image dimensions. This encoding enables, for the first time, the use of powerful vision-pretrained models for self-supervised skeleton representation learning, effectively transferring rich visual-domain knowledge to skeleton analysis. While existing skeleton methods often design models tailored to specific, homogeneous skeleton formats, they overlook the structural heterogeneity that naturally arises from diverse data sources. In contrast, our S2I representation offers a unified image-like format that naturally accommodates heterogeneous skeleton data. Extensive experiments on NTU-60, NTU-120, and PKU-MMD demonstrate the effectiveness and generalizability of our method for self-supervised skeleton representation learning, including under challenging cross-format evaluation settings.

연구 동기 및 목표

3D 스켈레톤 데이터와 이미지 기반 비전 모델 간의 모달리티 차이를 단일한 이미지 유사 표현으로 해소한다.
대규모 시각 사전학습 지식을 활용하기 위해 시각 사전학습과 함께 자기지도 기반 뼈대 표현 학습을 가능하게 한다.
이질적인 뼈대 데이터셋 간의 형식 간 교차-포맷 및 보편적 뼈대 표현 학습을 지원한다.
벤치마크 전반에 걸친 형식 간 전이 및 보편적 사전학습에서 강한 일반화 성능을 보여준다.

제안 방법

골격 관절을 다섯 부위(몸통, 왼팔, 오른팔, 왼다리, 오른다리)로 분할하고 각 부위 내에서 관절을 몸통에 가까운 순서로 정렬한다.
시간에 걸쳐 관절 좌표를 쌓아 T x J x 3 시공간 표현을 형성하고 x,y,z를 RGB 채널에 매핑한다.
생성된 이미지 유사 표현을 표준 비전 모델 입력에 맞추어 224 x 224로 크기 조정한다.
S2I 표현에 대해 마스킹 기반 학습(재구성 또는 확산 기반 잡음 제거)을 사용하여 이미지 기반 모델(MAE 및 DiffMAE)을 사전학습한다.
표준 교차 엔트로피 손실을 사용하여 다운스트림 뼈대 동작 인식 태스크를 미세조정하거나 선형-프로브한다.

실험 결과

연구 질문

RQ1비전 사전학습 모델을 단일화된 Skeleton-to-Image 표현을 통해 뼈대 분석에 효과적으로 재적용할 수 있는가?
RQ2S2I가 이질적인 뼈대 데이터셋 전반에서 강건한 형식 간 교차 및 보편적 뼈대 표현 학습을 가능하게 하는가?
RQ3S2I 프레임워크에서 자기지도 뼈대 학습을 가장 잘 지원하는 마스킹 전략과 뼈대 모달리티는 무엇인가?

주요 결과

Skeleton-to-Image 인코딩은 MAE 및 DiffMAE 백본이 선형 탐색 및 미세조정에서 경쟁력 있는 성능으로 뼈대 표현을 학습하게 한다.
이미지 사전학습 가중치는 상당한 이점을 제공하며, DiffMAE가 일반적으로 S2I 사전학습의 백본으로 MAE보다 우수하다.
3-stream S2I 융합(joint, motion, bone)은 linear evaluation에서 NTU-60 C-sub, NTU-120 C-set, 및 PKU-II에서 최첨단 성능을 달성한다.
NTU-60의 반지도 학습 설정에서, 1% 라벨 데이터로 X-sub 하에 71.4% (S2I)와 75.2% (3s-S2I)를 얻어 라벨이 제한된 상황에서도 강한 성능을 보여준다.
형식 간 전이 학습 및 보편적 사전학습 실험은 S2I가 이질적인 뼈대 데이터셋 간 일반화를 향상시키고 보편적 뼈대 표현 학습에 이익을 준다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.