[논문 리뷰] Deep Representation Learning on Long-tailed Data: A Learnable Embedding Augmentation Perspective
LEAP는 꼬리 클래스에서 피처 구름을 구성해 머리 클래스의 각도 다양성을 꼬리로 이전시킴으로써 intra-class 각도 다양성을 확장하고, 장형 꼬리 데이터에서 구별성을 개선합니다. 이는 여러 벤치마크에서 강한 베이스라인 대비 유의한 향상을 달성합니다.
This paper considers learning deep features from long-tailed data. We observe that in the deep feature space, the head classes and the tail classes present different distribution patterns. The head classes have a relatively large spatial span, while the tail classes have significantly small spatial span, due to the lack of intra-class diversity. This uneven distribution between head and tail classes distorts the overall feature space, which compromises the discriminative ability of the learned features. Intuitively, we seek to expand the distribution of the tail classes by transferring from the head classes, so as to alleviate the distortion of the feature space. To this end, we propose to construct each feature into a "feature cloud". If a sample belongs to a tail class, the corresponding feature cloud will have relatively large distribution range, in compensation to its lack of diversity. It allows each tail sample to push the samples from other classes far away, recovering the intra-class diversity of tail classes. Extensive experimental evaluations on person re-identification and face recognition tasks confirm the effectiveness of our method.
연구 동기 및 목표
- 장거리형 클래스 분포에서 학습이 구분 가능한 심층 특성을 찾는 도전을 동기부여하고 해결합니다.
- 꼬리 클래스의 intra-class 다양성을 머리 클래스로부터의 전이로 확장하는 학습 가능한 임베딩 증강 프레임워크를 제안합니다.
- 훈련 중 꼬리 샘플을 보정하기 위해 클래스 내 각도 분포를 모델링하고 피처 구름을 구성합니다.
- 사람 재식별 및 얼굴 인식 벤치마크에서 방법의 효과를 강력한 베이스라인 대비 입증합니다.
제안 방법
- 피처와 클래스 중심 사이의 각도 분포를 통해 intra-class 피처 분포를 모델링합니다.
- 각 클래스별로 각도 메모리(angle memory)를 유지 및 업데이트하여 가우시안 각도 분포를 추정합니다.
- 헤드(head) 클래스의 각도 분산을 계산하고 이를 꼬리 클래스에 전달하기 위해 각 꼬리 샘플 주위에 피처 구름을 구성합니다.
- tail-feature augmentation은 각도 오프셋 alpha ~ N(0, sigma_h^2 - sigma_t^2) 분포에서 샘플링하는 방식으로 꼬리 공간을 확장하도록 정의합니다.
- CosFace와 ArcFace 손실에 이 증강을 결합하여 변형 손실 L3/L4(전체 버전) 또는 기본 베이스라인으로서 L1/L2를 얻고, 각도를 [0, pi]로 클리핑합니다.
- 사람의 개입 없이 꼬리 다양성을 조정하기 위해 일반 버전(head/tail 레이블 사용)과 전체 버전(no explicit head/tail labeling)을 제공합니다.
실험 결과
연구 질문
- RQ1장거리형 데이터가 심층 임베딩 학습에서 피처 공간을 어떻게 왜곡시키는가?
- RQ2꼬리 클래스가 머리 클래스에서 학습된 intra-class 각도 다양성을 전이하여 보상받을 수 있는가?
- RQ3피처 구름 기반 증강이 explicit head-tail 레이블링 없이도 꼬리 클래스 구분력을 향상시키는가?
- RQ4다양한 머리-꼬리 비율에서 LEAP가 사람 재식별 및 얼굴 인식 벤치마크에서 어떻게 성능을 보이는가?
주요 결과
| 방법 | Market-1501 mAP | Market-1501 Rank-1 | DukeMTMC mAP | DukeMTMC Rank-1 | MSMT17 mAP | MSMT17 Rank-1 |
|---|---|---|---|---|---|---|
| HA-CNN | 75.7 | 91.2 | 63.8 | 80.5 | - | - |
| PCB | 77.4 | 92.3 | 66.1 | 81.8 | 40.4 | 68.2 |
| Mancs | 82.3 | 93.1 | 71.8 | 84.9 | - | - |
| CosFace | 79.5 | 92.4 | 73.0 | 85.6 | 49.2 | 75.3 |
| ArcFace | 81.1 | 92.5 | 73.2 | 85.8 | 50.5 | 75.5 |
| LEAP-CF | 84.2 | 94.4 | 74.2 | 87.8 | 50.8 | 76.7 |
| LEAP-AF | 83.2 | 93.5 | 74.2 | 86.9 | 51.3 | 76.3 |
- 장형 꼬리 데이터에서 식별력을 향상시키고, Market-1501 및 DukeMTMC-reID에서 강력한 베이스라인 대비 Rank-1 및 mAP를 상회합니다.
- Market-1501 및 DukeMTMC-reID에서 LEAP-CF는 Market-1501에서 94.4% Rank-1 및 84.2% mAP, DukeMTMC-reID에서 87.8% Rank-1 및 74.2% mAP를 달성합니다.
- MSMT17에서 LEAP-CF는 50.8 mAP 및 76.7 Rank-1를, LEAP-AF는 51.3 mAP 및 76.3 Rank-1를 달성합니다.
- 헤드-꼬리 비율이 달라지는 상황에서도 일반적인 베이스라인보다 일관되게 성능이 향상되며, 특히 매우 심한 장형 꼬리 설정(H20/S3 또는 H20/S4)에서 크게 개선됩니다.
- 전체 버전(헤드/꼬리 레이블의 명시적 표기가 없음)은 일반 버전과 비슷하거나 더 나은 성능을 달성하여 수동 레이블링 없이도 데이터셋 분포에 강건함을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.