[논문 리뷰] Conditional Gaussian Distribution Learning for Open Set Recognition
이 논문은 상호 관련된_UNKNOWN 샘플 탐지와 알려진 샘플 분류를 동시에 수행하는 조건부 가우시안 분포 학습 프레임워크 CGDL을 제시하며, 오픈 세트 인식에서 최신 성능을 달성한다.
Deep neural networks have achieved state-of-the-art performance in a wide range of recognition/classification tasks. However, when applying deep learning to real-world applications, there are still multiple challenges. A typical challenge is that unknown samples may be fed into the system during the testing phase and traditional deep neural networks will wrongly recognize the unknown sample as one of the known classes. Open set recognition is a potential solution to overcome this problem, where the open set classifier should have the ability to reject unknown samples as well as maintain high classification accuracy on known classes. The variational auto-encoder (VAE) is a popular model to detect unknowns, but it cannot provide discriminative representations for known classification. In this paper, we propose a novel method, Conditional Gaussian Distribution Learning (CGDL), for open set recognition. In addition to detecting unknown samples, this method can also classify known samples by forcing different latent features to approximate different Gaussian models. Meanwhile, to avoid information hidden in the input vanishing in the middle layers, we also adopt the probabilistic ladder architecture to extract high-level abstract features. Experiments on several standard image datasets reveal that the proposed method significantly outperforms the baseline method and achieves new state-of-the-art results.
연구 동기 및 목표
- Unknown 샘플을 동시에 탐지하고 알려진 클래스들을 분류하는 엔드-투-엔드 오픈 세트 인식 방법을 개발한다.
- 후방 확률 잠재변수를 클래스별 가우시안 모델에 근사하도록 강제하여 클래스 조건부 잠재표현을 학습한다.
- 확률적 사다리 구조를 통해 높은 수준의 추상 특징을 보존하고 잠재 공간에서의 판별력을 향상시킨다.
- 잠재 분포와 함께 재구성 정보를 활용하여 미지 탐지 성능을 높인다.
- 표준 이미지 데이터셋(MNIST, SVHN, CIFAR 계열)에서 최첨단 성능을 보여준다.
제안 방법
- 클래스별 사전 분포 pθ^(k)(z) = N(z; μk, I) 를 근사하도록 qφ(z|x,k) 조건부 후방 분포를 학습한다.
- 원-핫 클래스 라벨을 잠재 공간 평균 μk 로 매핑하기 위해 완전 연결 계층을 사용한다.
- 高수준의 추상 특징을 포착하고 계층 간 정보 흐름을 가능하게 하는 확률적 사다리 네트워크를 인코더와 디코더 모두에 적용한다.
- 재구성 손실 Lr, KL-divergence LKL(중간층 KL 항 포함), 분류 손실 Lc 를 포함하는 결합 손실로 학습하여 총 손실 L = - (Lr + β LKL + λ Lc) 을 최적화한다.
- 테스트 중, 정확히 분류된 샘플의 잠재 표현으로부터 per-class 가우시안 f_k(z) = N(z; m_k, σ_k^2)을 모델링하고 재구성 오차를 추가적인 미지 탐지 큐로 사용한다.
- 테스트 알고리즘에 따라 CGD 기반 가능도와 재구성 오차 임계값 τl, τr 를 결합하여 미지 탐지를 수행한다.
실험 결과
연구 질문
- RQ1조건부 가우시안 잠재 사전이 엔드-투-엔드 프레임워크 내에서 동시에 오픈 세트 탐지와 폐쇄 세트 분류를 가능하게 하는가?
- RQ2확률적 사다리 아키텍처를 도입하면 일반 VAE에 비해 높은 수준의 특징 보존과 오픈 세트 성능 향상을 가져오는가?
- RQ3CGDL에서 잠재-모델 기반의 미지 탐지와 재구성 기반 큐를 결합하는 것이 얼마나 효과적인가?
- RQ4학습된 클래스 조건부 잠재 분포가 표준 CNN 베이스라인과 비교하여 폐쇄 세트 정확도에 어떤 영향을 주는가?
- RQ5MNIST, SVHN, CIFAR 데이터 세트에서 CGDL의 표준 OSR 벤치마크 성능은 어느 수준인가?
주요 결과
| Method | MNIST | SVHN | CIFAR10 | CIFAR+10 | CIFAR+50 |
|---|---|---|---|---|---|
| Softmax | 0.768 ± 0.008 | 0.725 ± 0.012 | 0.600 ± 0.037 | 0.701 ± 0.012 | 0.637 ± 0.008 |
| Openmax [4] | 0.798 ± 0.018 | 0.737 ± 0.011 | 0.623 ± 0.038 | 0.731 ± 0.062 | 0.676 ± 0.056 |
| CROSR [37] | 0.803 ± 0.013 | 0.753 ± 0.019 | 0.668 ± 0.013 | 0.769 ± 0.016 | 0.684 ± 0.005 |
| GDFR [24] | 0.821 ± 0.021 | 0.716 ± 0.010 | 0.700 ± 0.024 | 0.776 ± 0.003 | 0.683 ± 0.023 |
| CGDL (Ours) | 0.837 ± 0.055 | 0.776 ± 0.040 | 0.655 ± 0.023 | 0.760 ± 0.024 | 0.695 ± 0.013 |
- CGDL은 여러 표준 이미지 데이터셋에서 최신 오픈 세트 인식 성능을 달성한다.
- 확률적 사다리 아키텍처는 plain CVAEs에 비해 잠재 표현의 질과 오픈 세트 점수를 향상시킨다.
- 조건부 가우시안 분포는 알려진 클래스에 대해 판별 가능한 잠재 표현을 가능하게 하는 동시에 미지 탐지를 가능하게 한다.
- CGD 기반 탐지기에 재구성-오류 큐를 더하면 차등 분석에서 성능이 더욱 향상된다.
- 표 2에서 CGDL(Ours)은 MNIST에서 0.837 ± 0.055, SVHN에서 0.776 ± 0.040, CIFAR10에서 0.655 ± 0.023, CIFAR+10에서 0.760 ± 0.024, CIFAR+50에서 0.695 ± 0.013로 다양한 베이스라인을 능가한다.
- CGDL은 Omniglot/노이즈 이상치를 포함한 MNIST 및 이상치를 포함한 CIFAR-10에서도 강력한 결과를 보여주며 나열된 방법들 중 최고의 macro-F1 점수를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.