[논문 리뷰] Discriminative k-shot learning using probabilistic models
이 논문은 사전에 훈련된 CNN에서 추출한 딥 특징 표현과, 대규모 분류 데이터셋에서 학습된 최종층 가중치에 대한 베이지안 사전분포를 조합하는 확률적 프레임워크를 제안한다. 기존 네트워크의 최상위 레이어 가중치를 사전분포를 학습하기 위한 데이터로 간주함으로써, 이 방법은 miniImageNet에서 이전 작업보다 약 6% 높은 성능을 달성하며, 잘 校정된 불확실성 추정을 제공한다. 이는 에피소드 기반 훈련에 의존하는 복잡한 딥러닝 접근법을 능가한다.
This paper introduces a probabilistic framework for k-shot image classification. The goal is to generalise from an initial large-scale classification task to a separate task comprising new classes and small numbers of examples. The new approach not only leverages the feature-based representation learned by a neural network from the initial task (representational transfer), but also information about the classes (concept transfer). The concept information is encapsulated in a probabilistic model for the final layer weights of the neural network which acts as a prior for probabilistic k-shot learning. We show that even a simple probabilistic model achieves state-of-the-art on a standard k-shot learning dataset by a large margin. Moreover, it is able to accurately model uncertainty, leading to well calibrated classifiers, and is easily extensible and flexible, unlike many recent approaches to k-shot learning.
연구 동기 및 목표
- 기존에 볼 수 있었던 클래스들로부터의 학습된 특징 표현과 개념 지식을 활용하여 소수의 샘플로도 이미지 분류 문제를 해결하고자 한다.
- 최종층 가중치에 대한 확률적 모델을 통해 클래스의 구조에 대한 사전 지식을 통합함으로써 k-샷 학습의 일반화 성능을 향상시키고자 한다.
- 기존의 k-샷 학습 방법에서 자주 간과되는 분류기의 불확실성 추정을 더 잘 校정하고자 한다.
- 강력한 특징 추출기와 함께 사용될 경우, 단순한 확률적 모델이 복잡한 딥러닝 아키텍처를 능가할 수 있음을 보여주고자 한다.
- 베이지안 사전분포를 통해 표현 전이와 개념 전이를 효과적으로 융합함으로써 소수의 샘플로도 성능을 향상시킬 수 있음을 보여주고자 한다.
제안 방법
- 사전에 훈련된 딥 CNN을 사용하여 입력 이미지에서 특징를 추출함으로써 대규모 분류 데이터셋에서의 표현 전이를 활용한다.
- CNN의 최종층 소프트맥스 가중치를 랜덤 변수로 모델링하고, 원래 데이터셋을 사용하여 이러한 가중치에 대한 확률적 사전분포를 학습한다.
- 사전분포를 사용하여 k-샷 클래스의 새로운 가중치 학습을 베이지안 방식으로 정규화하며, 최대 사후확률(MAP) 또는 마르코프 체인 몬테카를로(MCMC) 샘플링을 통해 추론을 수행한다.
- 등방성 공분산을 가진 가우시안 사전분포를 사용할 경우, 이 프레임워크는 L2 정규화가 된 로지스틱 회귀의 특수한 경우로 복구된다.
- 다양한 사전분포를 평가하였으며, 가우시안, 라플라스, 그리고 가우시안 혼합모델(GMM)이 포함되며, 초모수는 훈련 가중치에 대한 검증 세트의 로그우도를 최적화하여 결정된다.
- 교정도는 기대교정오차(ECE)를 사용하여 평가하며, 1-, 5-, 10-샷 설정에서 miniImageNet과 CIFAR-100에서 성능을 평가한다.
실험 결과
연구 질문
- RQ1최종층 가중치에 대한 단순한 확률적 모델이 표현 전이 외의 요소를 추가로 통합함으로써 소수의 샘플로도 일반화 성능을 향상시킬 수 있는가?
- RQ2기존에 학습된 클래스들로부터의 개념 지식을 베이지안 사전분포를 통해 통합할 경우, k-샷 학습의 성능과 교정도에 긍정적인 영향을 미치는가?
- RQ3이 프레임워크는 복잡한 아키텍처를 사용하는 에피소드 기반 훈련 방법과 비교해 복잡한 아키텍처를 사용하는 에피소드 기반 훈련 방법과 비교해 성능가능한가?
- RQ4GMM과 같은 복잡한 사전분포를 사용하는 데에 유의미한 이득이 있는가, 아니면 등방성 가우시안과 같은 단순한 모델로도 충분한가?
- RQ5강력한 특징 추출기의 품질이 확률적 사전분포와 결합되었을 때 k-샷 성능에 얼마나 큰 영향을 미치는가?
주요 결과
- 제안된 방법은 miniImageNet에서 최고 성능을 기록하였으며, 1-샷 및 5-샷 학습에서 이전의 작업보다 약 6% 높은 정확도를 달성하였다.
- MAP 추론을 사용하는 등방성 가우시안 사전분포가 정확도, 교정도, 계산 효율성의 균형을 가장 잘 유지하며, GMM 및 라플라스 사전분포보다 뛰어난 성능을 보였다.
- 라플라스 및 GMM(10, iso)를 제외한 모든 방법이 낮은 기대교정오차(ECE)를 기록하여, 잘 校정된 불확실성 추정이 이루어졌음을 시사한다.
- MCMC 추론을 사용할 경우 교정도는 약간 향상되었지만, 계산 비용이 크게 증가하여 MAP 추론에 비해 실용성이 떨어진다.
- 프리트레이닝 단계에서의 배치 분류 정확도가 높을수록 소수의 샘플로도 일반화 성능이 향상됨을 보여주었으며, 이는 우수한 성능을 내기 위해 에피소드 기반 훈련이 반드시 필요하다는 믿음에 도전한다.
- GMM과 같은 혼합모델은 높은 표현 능력을 지니고 있음에도 불구하고 성능 향상이 없었는데, 이는 원래 클래스 수가 적고 가중치 공간의 차원이 높아 복잡한 모델을 피팅하기 어려운 데 기인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.