[논문 리뷰] Cross-Domain Complementary Learning with Synthetic Data for Multi-Person Part Segmentation.
이 논문은 인간의 레이블이 전혀 필요 없는 다인용 부분 분할을 위해 정밀한 픽셀 수준의 레이블을 가진 합성 데이터와 rich한 시각적 변형을 가진 진짜 데이터를 활용하는 cross-domain complementary learning를 제안한다. 인간의 자세 추정을 도메인 정합 다리로 사용함으로써, Pascal-Person-Parts와 COCO-DensePose에서 최신 기술 수준의 성능을 달성하며, 실제 환경에서 새로운 관절점 예측으로까지 일반화된다.
The success of supervised deep learning depends on the training labels. However, data labeling at pixel-level is very expensive, and people have been exploring synthetic data as an alternative. Even though it is easy to generate labels for synthetic data, the quality gap makes it challenging to transfer knowledge from synthetic data to real data. In this paper, we propose a novel technique, called cross-domain complementary learning that takes advantage of the rich variations of real data and the easily obtainable labels of synthetic data to learn multi-person part segmentation on real images without any human-annotated segmentation labels. To make sure the synthetic data and real data are aligned in a common latent space, we use an auxiliary task of human pose estimation to bridge the two domains. Without any real part segmentation training data, our method performs comparably to several supervised state-of-the-art approaches which require real part segmentation training data on Pascal-Person-Parts and COCO-DensePose datasets. We further demonstrate the generalizability of our method on predicting novel keypoints in the wild where no real data labels are available for the novel keypoints.
연구 동기 및 목표
- 실사 이미지에서 다인용 부분 분할을 위한 픽셀 수준의 레이블링에 드는 높은 비용을 해결하기 위해.
- 정밀한 레이블이 있는 합성 데이터와 rich한 시각적 변형을 가진 진짜 데이터 사이의 도메인 갭을 줄여 효과적인 지식 전이를 가능하게 하기 위해.
- 실제 인간이 레이블링한 분할 데이터가 전혀 없이도 부분 분할 모델을 훈련시킬 수 있도록 하기 위해.
- 실제 환경에서 레이블이 없는 상황에서도 새로운 관절점 예측으로의 일반화를 보여주기 위해.
제안 방법
- 합성 데이터와 진짜 데이터에서 동시에 최적화하는 cross-domain complementary learning 프레임워크를 도입하여 부분 분할 성능을 향상시킨다.
- 합성 도메인과 진짜 도메인 간의 잠재 공간 정합을 위해 인간 자세 추정을 보조 과제로 사용한다.
- 정확한 부분 레이블이 있는 합성 데이터와 자세 추정 결과로부터의 약한 지도 신호를 가진 진짜 데이터에서 단일 모델을 엔드 투 엔드로 훈련시킨다.
- 진짜 이미지의 풍부한 외관 변형을 활용하여 일반화 성능를 향상시키면서도 정밀한 합성 레이블의 이점을 누린다.
- 자세 추정 예측을 통해 안내되는 특징 공간 투영을 통해 도메인 정합을 구현한다.
- 부분 분할과 자세 추정을 함께 훈련시켜 특징 표현을 향상시키기 위해 다중 과제 학습 설정을 사용한다.
실험 결과
연구 질문
- RQ1완전한 레이블이 있는 합성 데이터를 사용해 실제 인간이 레이블링한 데이터가 없는 상태에서 부분 분할 모델을 효과적으로 훈련시킬 수 있는가?
- RQ2합성 데이터와 진짜 데이터 사이의 도메인 갭은 어떻게 극복하여 지식 전이를 가능하게 할 수 있는가?
- RQ3합성 데이터와 진짜 이미지에서 자세 지도 신호만을 사용해 훈련된 모델이 실제 환경에서 레이블이 없는 새로운 관절점 구성으로 일반화될 수 있는가?
- RQ4cross-domain complementary learning는 실제 분할 레이블에 의존하는 지도 학습 최신 기술 수준의 방법들과 비교해 유사한 성능을 달성할 수 있는가?
주요 결과
- 제안된 방법은 인간의 레이블이 전혀 없는 Pascal-Person-Parts와 COCO-DensePose에서 최신 기술 수준의 성능를 달성한다.
- 대규모 실사 부분 분할 레이블이 필요한 지도 학습 최신 기술 수준의 방법들과 비교해 유사한 성능를 보인다.
- 레이블이 없는 관절점에 대해 실세계 이미지에서 새로운 관절점 예측으로 일반화된다.
- 자세 추정을 도메인 정합 신호로 사용함으로써 합성 데이터와 진짜 도메인 간의 특징 전이가 크게 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.