QUICK REVIEW

[논문 리뷰] Associative Embedding: End-to-End Learning for Joint Detection and Grouping

Alejandro Newell, Zhiao Huang|arXiv (Cornell University)|2016. 11. 16.

Human Pose and Action Recognition인용 수 557

한 줄 요약

연관 임베딩을 도입하여 단일 스테이지 네트워크에서 탐지와 그룹화를 함께 학습시키고, 다인 포즈 추정(MPII 및 MS-COCO)에서 최첨단 성능을 달성하며 인스턴스 분할에의 적용 가능성을 보여준다.

ABSTRACT

We introduce associative embedding, a novel method for supervising convolutional neural networks for the task of detection and grouping. A number of computer vision problems can be framed in this manner including multi-person pose estimation, instance segmentation, and multi-object tracking. Usually the grouping of detections is achieved with multi-stage pipelines, instead we propose an approach that teaches a network to simultaneously output detections and group assignments. This technique can be easily integrated into any state-of-the-art network architecture that produces pixel-wise predictions. We show how to apply this method to both multi-person pose estimation and instance segmentation and report state-of-the-art performance for multi-person pose on the MPII and MS-COCO datasets.

연구 동기 및 목표

두 단계 파이프라인이 아닌 단일 스테이지 문제로서 탐지와 그룹화를 공동으로 수행할 의의를 제시한다.
각 탐지에 대해 그룹 식별을 인코딩하는 태그로서 연관 임베딩을 도입한다.
탐지 히트맵과 임베딩 태그를 엔드투엔드로 예측하도록 네트워크를 학습시키는 방법을 보인다.
다인 포즈 추정 task에서 최첨단 성능을 입증한다.
연관 임베딩이 인스턴스 분할에도 적용 가능함을 보여준다.

제안 방법

스택드 하우어글래스 네트워크를 사용하여 각 타깃(예: 신체 관절)에 대해 탐지 히트맵과 1차원 임베딩 태그 히트맷을 예측한다.
탐지 손실(MSE on heatmaps)과 그룹화 손실로 학습하여 같은 그룹의 탐지 임베딩은 비슷하고 서로 다른 그룹은 서로 다르도록 한다.
그룹당 평균 임베딩을 해당 멤버의 평균 임베딩으로 정의하고, 그룹 내 거리를 벌주며 서로 다른 그룹은 거리에 따라 지수적으로 서로 멀어지도록 한다.
디코딩: 피크 탐지를 추출하고 태그를 가져와 태그 유사도에 따라 탐지들을 그룹화하여 최종 인물 포즈나 객체 인스턴스를 형성한다.
다중 스케일 예측은 스케일 간 히트맵 평균화와 스케일별 태그를 연결하여 더 풍부한 임베딩을 얻는 방식으로 처리한다.
이 접근법을 다인포즈 추정 및 인스턴스 분할에 대한 개념 증명으로 적용한다.

실험 결과

연구 질문

RQ1탐지와 그룹화를 별도의 포스트 프로세싱 그룹화 단계 없이 단일 스테이지 CNN에서 함께 학습할 수 있는가?
RQ2탐지당 임베딩 태그가 포즈 추정과 분할 작업에서 그룹(예: 서로 다른 사람)을 효과적으로 식별하고 분리하는가?
RQ3다중 스케일 평가와 보조 단일 인원 정제가 전반적인 성능에 미치는 영향은 무엇인가?
RQ4연관 임베딩이 포즈 추정보다도 인스턴스 분할과 같은 작업에 광범위하게 적용 가능한가?

주요 결과

MPII 다인 인원에서 최첨단 AP를 달성(0.663 AP, 0.865 AP50, 0.727 AP75, 0.613 AP_M, 0.732 AP_L, 0.715 AR, 0.897 AR50, 0.772 AR75, 0.662 AR_M, 0.787 AR_L).
MS-COCO test-dev에서 다중 스케일 평가와 선택적 단일 인원 정제가 포함될 때 경쟁력 있는 최첨단 결과를 달성.
탐지와 간단한 임베딩 태그를 연결하는 조합으로 END-to-END 그룹화를 별도의 군집화나 CRF 단계 없이 수행할 수 있음을 입증.
두 개의 히트맵 출력(탐지 히트맵과 태깅 히트맵)이 다중 관절/클래스에 걸친 탐지와 그룹화를 위한 조합에 충분함을 보여준다.
주된 병목이 그룹화가 아니라 탐지 품질임을 보여주는 것이며, 실제 정답 탐지의 정도만으로 AP가 크게 향상된다(ablation에서 59.2에서 94.0으로 상승).
동일한 연관 임베딩 프레임워크를 인스턴스 분할에 적용하여 PASCAL VOC 2012에서 합리적인 mAP를 얻는다는 개념 증명을 확립한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.