QUICK REVIEW

[논문 리뷰] Numerical Coordinate Regression with Convolutional Neural Networks

Aiden Nibali, Zhen He|arXiv (Cornell University)|2018. 01. 23.

Human Pose and Action Recognition참고 문헌 17인용 수 186

한 줄 요약

우리는 차별화 가능한 공간-수치 변환(DSNT)을 도입하여 히트맵을 좌표로 변환하고, 추가 매개변수 없이 엔드투엔드 학습 및 좌표 회귀와 같은 추론 속도를 개선하며, DSNT가 종종 히트맵 매칭 및 완전 연결(fully connected) 접근법보다 우수하다는 것을 보여줍니다.

ABSTRACT

We study deep learning approaches to inferring numerical coordinates for points of interest in an input image. Existing convolutional neural network-based solutions to this problem either take a heatmap matching approach or regress to coordinates with a fully connected output layer. Neither of these approaches is ideal, since the former is not entirely differentiable, and the latter lacks inherent spatial generalization. We propose our differentiable spatial to numerical transform (DSNT) to fill this gap. The DSNT layer adds no trainable parameters, is fully differentiable, and exhibits good spatial generalization. Unlike heatmap matching, DSNT works well with low heatmap resolutions, so it can be dropped in as an output layer for a wide range of existing fully convolutional architectures. Consequently, DSNT offers a better trade-off between inference speed and prediction accuracy compared to existing techniques. When used to replace the popular heatmap matching approach used in almost all state-of-the-art methods for pose estimation, DSNT gives better prediction accuracy for all model architectures tested.

연구 동기 및 목표

CNN의 좌표 회귀에서 히트맵 매칭과 완전 연결 좌표 출력의 한계를 해결합니다.
공간 일반화 및 엔드투엔드 미분 가능성을 보존하는 차별화 가능하고 매개변수 없는 DSNT 계층을 제안합니다.
MPII 인체 포즈 데이터에서 DSNT를 다양한 CNN 아키텍처에 걸쳐 평가하여 정확도와 추론 효율성을 확인합니다.
의미 있는 히트맷 모양을 유도하고 좌표 예측을 개선하기 위한 정규화 전략을 탐구합니다.

제안 방법

DSNT를 단일 채널 정규화 히트맵을 입력으로 받아 이산 2변수 분포의 평균으로 좌표를 계산하는 차별화 가능한 계층으로 정의합니다.
좌표를 X, Y 좌표 그리드와의 2D 기대값으로 표현하여 서브 픽셀 정밀도와 역전파를 가능하게 합니다.
히트맵 활성화 함수들(softmax, abs, ReLU, sigmoid)을 사용해 정규화된 히트맵을 생성합니다; softmax가 최적의 성능을 보이는 것으로 확인됩니다.
유클리드 좌표 손실을 사용해 엔드투엔드로 학습하며 히트맵 손실이 아니라 좌표 정확도를 직접 타깃으로 합니다.
히트맵의 모양을 형성하고 정확도를 향상시키기 위한 분산 및 KL/JS와 같은 분포 발산 정규화 항을 도입합니다.
DSNT를 히트맵 매칭 및 완전 연결 출력과 비교하고, ResNet과 스택드 하우스그램 아키텍처에서 여러 히트맵 해상도에서 평가합니다.

실험 결과

연구 질문

RQ1DSNT가 공간 일반화를 보존하면서 엔드투엔드로 학습 가능한 좌표 회귀를 제공할 수 있는가?
RQ2DSNT가 아키텍처와 히트맵 해상도 전반에서 전통적 히트맵 매칭 및 완전 연결 접근법을 능가하는가?
RQ3DSNT의 성능과 히트맡 품질을 개선하는 가장 효과적인 정규화 전략은 무엇인가?
RQ4DSNT 기반 모델이 최신 포즈 추정 아키텍처와 비교해 정확도와 추론 속도에서 어떻게 차이가 나는가?

주요 결과

DSNT는 MPII 인체 포즈 데이터에서 실험된 모든 아키텍처에서 히트맵 매칭 및 완전 연결 출력보다 일관되게 우수한 성능을 보입니다.
DSNT는 낮은 해상도(예: 7x7)에서도 히트맵 매칭보다 더 높은 정확도를 제공하며 해상도가 증가함에 따라 견고함을 유지합니다.
정규화, 특히 Jensen-Shannon 분포 정규화가 Vanilla DSNT 대비 정확도를 향상시키고 목표 Gaussian 매개변수가 견고함을 보입니다.
ResNet-50 백본에 DSNT(28px 히트맵)를 사용하면 더 큰 하우스گ모드 모델보다 추론 속도와 메모리 사용이 크게 낮으면서도 경쟁력 있는 정확도를 달성합니다.
DSNT는 사분의 좌표 예측 및 좌표 출력에 대한 전체 역전파를 가능하게 하여 argmax 기반 방법과 달리 서브 픽셀 예측을 가능하게 합니다.
스택드 하우스그롤 모델과 비교할 때 DSNT 기반의 ResNet 방식은 정확도 감소가 크지 않으면서도 속도/메모리 측면에서 유리한 트레이드오프를 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.