Skip to main content
QUICK REVIEW

[논문 리뷰] Associative Embedding: End-to-End Learning for Joint Detection and Grouping

Alejandro Newell, Zhiao Huang|arXiv (Cornell University)|2016. 11. 16.
Human Pose and Action Recognition인용 수 557
한 줄 요약

연관 임베딩을 도입하여 단일 스테이지 네트워크에서 탐지와 그룹화를 함께 학습시키고, 다인 포즈 추정(MPII 및 MS-COCO)에서 최첨단 성능을 달성하며 인스턴스 분할에의 적용 가능성을 보여준다.

ABSTRACT

We introduce associative embedding, a novel method for supervising convolutional neural networks for the task of detection and grouping. A number of computer vision problems can be framed in this manner including multi-person pose estimation, instance segmentation, and multi-object tracking. Usually the grouping of detections is achieved with multi-stage pipelines, instead we propose an approach that teaches a network to simultaneously output detections and group assignments. This technique can be easily integrated into any state-of-the-art network architecture that produces pixel-wise predictions. We show how to apply this method to both multi-person pose estimation and instance segmentation and report state-of-the-art performance for multi-person pose on the MPII and MS-COCO datasets.

연구 동기 및 목표

  • 두 단계 파이프라인이 아닌 단일 스테이지 문제로서 탐지와 그룹화를 공동으로 수행할 의의를 제시한다.
  • 각 탐지에 대해 그룹 식별을 인코딩하는 태그로서 연관 임베딩을 도입한다.
  • 탐지 히트맵과 임베딩 태그를 엔드투엔드로 예측하도록 네트워크를 학습시키는 방법을 보인다.
  • 다인 포즈 추정 task에서 최첨단 성능을 입증한다.
  • 연관 임베딩이 인스턴스 분할에도 적용 가능함을 보여준다.

제안 방법

  • 스택드 하우어글래스 네트워크를 사용하여 각 타깃(예: 신체 관절)에 대해 탐지 히트맵과 1차원 임베딩 태그 히트맷을 예측한다.
  • 탐지 손실(MSE on heatmaps)과 그룹화 손실로 학습하여 같은 그룹의 탐지 임베딩은 비슷하고 서로 다른 그룹은 서로 다르도록 한다.
  • 그룹당 평균 임베딩을 해당 멤버의 평균 임베딩으로 정의하고, 그룹 내 거리를 벌주며 서로 다른 그룹은 거리에 따라 지수적으로 서로 멀어지도록 한다.
  • 디코딩: 피크 탐지를 추출하고 태그를 가져와 태그 유사도에 따라 탐지들을 그룹화하여 최종 인물 포즈나 객체 인스턴스를 형성한다.
  • 다중 스케일 예측은 스케일 간 히트맵 평균화와 스케일별 태그를 연결하여 더 풍부한 임베딩을 얻는 방식으로 처리한다.
  • 이 접근법을 다인포즈 추정 및 인스턴스 분할에 대한 개념 증명으로 적용한다.

실험 결과

연구 질문

  • RQ1탐지와 그룹화를 별도의 포스트 프로세싱 그룹화 단계 없이 단일 스테이지 CNN에서 함께 학습할 수 있는가?
  • RQ2탐지당 임베딩 태그가 포즈 추정과 분할 작업에서 그룹(예: 서로 다른 사람)을 효과적으로 식별하고 분리하는가?
  • RQ3다중 스케일 평가와 보조 단일 인원 정제가 전반적인 성능에 미치는 영향은 무엇인가?
  • RQ4연관 임베딩이 포즈 추정보다도 인스턴스 분할과 같은 작업에 광범위하게 적용 가능한가?

주요 결과

  • MPII 다인 인원에서 최첨단 AP를 달성(0.663 AP, 0.865 AP50, 0.727 AP75, 0.613 AP_M, 0.732 AP_L, 0.715 AR, 0.897 AR50, 0.772 AR75, 0.662 AR_M, 0.787 AR_L).
  • MS-COCO test-dev에서 다중 스케일 평가와 선택적 단일 인원 정제가 포함될 때 경쟁력 있는 최첨단 결과를 달성.
  • 탐지와 간단한 임베딩 태그를 연결하는 조합으로 END-to-END 그룹화를 별도의 군집화나 CRF 단계 없이 수행할 수 있음을 입증.
  • 두 개의 히트맵 출력(탐지 히트맵과 태깅 히트맵)이 다중 관절/클래스에 걸친 탐지와 그룹화를 위한 조합에 충분함을 보여준다.
  • 주된 병목이 그룹화가 아니라 탐지 품질임을 보여주는 것이며, 실제 정답 탐지의 정도만으로 AP가 크게 향상된다(ablation에서 59.2에서 94.0으로 상승).
  • 동일한 연관 임베딩 프레임워크를 인스턴스 분할에 적용하여 PASCAL VOC 2012에서 합리적인 mAP를 얻는다는 개념 증명을 확립한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.