QUICK REVIEW

[논문 리뷰] TransPose: Towards Explainable Human Pose Estimation by Transformer

Sen Yang, Zhibin Quan|arXiv (Cornell University)|2020. 12. 28.

Human Pose and Action Recognition인용 수 41

한 줄 요약

TransPose는 키포인트 간 공간적 종속성을 드러내는 어텐션 메커니즘을 활용하여 해석 가능성을 향상시키는 트랜스포머 기반 아키텍처를 제안한다. COCO에서 최신 기술 성능을 달성하면서도 완전 컨볼루션 네트워크보다 경량화되고 효율적이며, 어텐션 맵을 통해 각 키포인트의 추론 과정에 대한 이미지 기반 설명을 제공한다.

ABSTRACT

Deep Convolutional Neural Networks (CNNs) have made remarkable progress on human pose estimation task. However, there is no explicit understanding of how the locations of body keypoints are predicted by CNN, and it is also unknown what spatial dependency relationships between structural variables are learned in the model. To explore these questions, we construct an explainable model named TransPose based on Transformer architecture and low-level convolutional blocks. Given an image, the attention layers built in Transformer can capture long-range spatial relationships between keypoints and explain what dependencies the predicted keypoints locations highly rely on. We analyze the rationality of using attention as the explanation to reveal the spatial dependencies in this task. The revealed dependencies are image-specific and variable for different keypoint types, layer depths, or trained models. The experiments show that TransPose can accurately predict the positions of keypoints. It achieves state-of-the-art performance on COCO dataset, while being more interpretable, lightweight, and efficient than mainstream fully convolutional architectures.

연구 동기 및 목표

딥 컨볼루션 신경망(DCNN)이 인간 자세 추정에서 해석 가능성이 부족한 문제, 특히 키포인트 위치 예측 방식에 대해 해결하고자 한다.
자세 추정 모델이 학습한 공간적 종속성 관계, 특히 신체 관절과 같은 구조적 변수 간 관계를 탐구하고자 한다.
주류의 완전 컨볼루션 네트워크를 능가하는 경량화되고 효율적이며 해석 가능한 아키텍처를 개발하고자 한다.
학습된 공간적 관계를 시각화함으로써 어텐션 메커니즘이 키포인트 예측에 대한 합리적 설명으로 기능하는지 검증하고자 한다.

제안 방법

저수준의 컨볼루션 특징과 트랜스포머 블록을 통합하여 인간 자세 추정에서 국소적 및 장거리 공간적 관계를 동시에 모델링한다.
트랜스포머의 자체 어텐션 레이어를 활용해 전체 이미지에 걸쳐 키포인트 간 종속성을 포착함으로써 예측 근거를 설명할 수 있도록 한다.
컨볼루션 특징 추출과 트랜스포머 기반 추론을 융합한 하이브리드 아키텍처를 구성하여 정확도와 해석 가능성을 향상시킨다.
어텐션 가중치를 해석 가능한 설명으로 활용하여 각 관절의 예측에 영향을 주는 이미지 영역 또는 키포인트를 시각화한다.
표준 자세 추정 손실 함수를 사용하여 COCO 데이터셋에서 모델을 엔드 투 엔드로 훈련한다.
다양한 키포인트 유형, 네트워크 깊이 및 훈련된 모델에서 어텐션 패턴을 분석하여 일관성과 특이성을 평가한다.

실험 결과

연구 질문

RQ1트랜스포머 기반 모델에서 어텐션 메커니즘이 자세 추정 과정 중 인간 신체 키포인트 간 공간적 종속성을 어떻게 드러내는가?
RQ2TransPose의 어텐션 패턴은 얼마나 이미지 기반 및 키포인트 유형 기반 관계를 반영하는가?
RQ3어텐션 맵은 인간 자세 추정에서 키포인트 예측에 대한 신뢰할 수 있고 해석 가능한 설명으로 기능할 수 있는가?
RQ4정확도, 효율성, 모델의 해석 가능성 측면에서 TransPose는 최신 기술 수준의 완전 컨볼루션 네트워크와 어떻게 비교되는가?

주요 결과

TransPose는 COCO 키포인트 검출 벤치마크에서 최신 기술 성능을 달성하며, 기존의 완전 컨볼루션 아키텍처를 능가한다.
TransPose의 어텐션 메커니즘은 키포인트 유형과 네트워크 깊이에 따라 달라지는 이미지 기반 공간적 종속성을 드러낸다.
어텐션 맵은 각 키포인트의 위치 예측이 이미지의 맥락적 관계에 기반하여 어떻게 이루어지는지 의미 있는 해석 가능한 설명을 제공한다.
해석 가능성의 향상에도 불구하고 TransPose는 주류의 완전 컨볼루션 네트워크보다 경량화되고 효율적이다.
어 attention이 드러내는 공간적 종속성은 키포인트 유형에 따라 균일하지 않으며, 이는 모델이 구조적이고 해부학적으로 타당한 관계를 학습하고 있음을 시사한다.
다양한 훈련된 모델 간에 일관되고 합리적인 어텐션 패턴을 보이며, 어텐션 메커니즘이 설명 기반 도구로서의 타당성을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.