QUICK REVIEW

[논문 리뷰] Discriminative k-shot learning using probabilistic models

Matthias Bauer, Mateo Rojas-Carulla|arXiv (Cornell University)|2017. 06. 01.

Domain Adaptation and Few-Shot Learning참고 문헌 10인용 수 41

한 줄 요약

이 논문은 사전에 훈련된 CNN에서 추출한 딥 특징 표현과, 대규모 분류 데이터셋에서 학습된 최종층 가중치에 대한 베이지안 사전분포를 조합하는 확률적 프레임워크를 제안한다. 기존 네트워크의 최상위 레이어 가중치를 사전분포를 학습하기 위한 데이터로 간주함으로써, 이 방법은 miniImageNet에서 이전 작업보다 약 6% 높은 성능을 달성하며, 잘 校정된 불확실성 추정을 제공한다. 이는 에피소드 기반 훈련에 의존하는 복잡한 딥러닝 접근법을 능가한다.

ABSTRACT

This paper introduces a probabilistic framework for k-shot image classification. The goal is to generalise from an initial large-scale classification task to a separate task comprising new classes and small numbers of examples. The new approach not only leverages the feature-based representation learned by a neural network from the initial task (representational transfer), but also information about the classes (concept transfer). The concept information is encapsulated in a probabilistic model for the final layer weights of the neural network which acts as a prior for probabilistic k-shot learning. We show that even a simple probabilistic model achieves state-of-the-art on a standard k-shot learning dataset by a large margin. Moreover, it is able to accurately model uncertainty, leading to well calibrated classifiers, and is easily extensible and flexible, unlike many recent approaches to k-shot learning.

연구 동기 및 목표

기존에 볼 수 있었던 클래스들로부터의 학습된 특징 표현과 개념 지식을 활용하여 소수의 샘플로도 이미지 분류 문제를 해결하고자 한다.
최종층 가중치에 대한 확률적 모델을 통해 클래스의 구조에 대한 사전 지식을 통합함으로써 k-샷 학습의 일반화 성능을 향상시키고자 한다.
기존의 k-샷 학습 방법에서 자주 간과되는 분류기의 불확실성 추정을 더 잘 校정하고자 한다.
강력한 특징 추출기와 함께 사용될 경우, 단순한 확률적 모델이 복잡한 딥러닝 아키텍처를 능가할 수 있음을 보여주고자 한다.
베이지안 사전분포를 통해 표현 전이와 개념 전이를 효과적으로 융합함으로써 소수의 샘플로도 성능을 향상시킬 수 있음을 보여주고자 한다.

제안 방법

사전에 훈련된 딥 CNN을 사용하여 입력 이미지에서 특징를 추출함으로써 대규모 분류 데이터셋에서의 표현 전이를 활용한다.
CNN의 최종층 소프트맥스 가중치를 랜덤 변수로 모델링하고, 원래 데이터셋을 사용하여 이러한 가중치에 대한 확률적 사전분포를 학습한다.
사전분포를 사용하여 k-샷 클래스의 새로운 가중치 학습을 베이지안 방식으로 정규화하며, 최대 사후확률(MAP) 또는 마르코프 체인 몬테카를로(MCMC) 샘플링을 통해 추론을 수행한다.
등방성 공분산을 가진 가우시안 사전분포를 사용할 경우, 이 프레임워크는 L2 정규화가 된 로지스틱 회귀의 특수한 경우로 복구된다.
다양한 사전분포를 평가하였으며, 가우시안, 라플라스, 그리고 가우시안 혼합모델(GMM)이 포함되며, 초모수는 훈련 가중치에 대한 검증 세트의 로그우도를 최적화하여 결정된다.
교정도는 기대교정오차(ECE)를 사용하여 평가하며, 1-, 5-, 10-샷 설정에서 miniImageNet과 CIFAR-100에서 성능을 평가한다.

실험 결과

연구 질문

RQ1최종층 가중치에 대한 단순한 확률적 모델이 표현 전이 외의 요소를 추가로 통합함으로써 소수의 샘플로도 일반화 성능을 향상시킬 수 있는가?
RQ2기존에 학습된 클래스들로부터의 개념 지식을 베이지안 사전분포를 통해 통합할 경우, k-샷 학습의 성능과 교정도에 긍정적인 영향을 미치는가?
RQ3이 프레임워크는 복잡한 아키텍처를 사용하는 에피소드 기반 훈련 방법과 비교해 복잡한 아키텍처를 사용하는 에피소드 기반 훈련 방법과 비교해 성능가능한가?
RQ4GMM과 같은 복잡한 사전분포를 사용하는 데에 유의미한 이득이 있는가, 아니면 등방성 가우시안과 같은 단순한 모델로도 충분한가?
RQ5강력한 특징 추출기의 품질이 확률적 사전분포와 결합되었을 때 k-샷 성능에 얼마나 큰 영향을 미치는가?

주요 결과

제안된 방법은 miniImageNet에서 최고 성능을 기록하였으며, 1-샷 및 5-샷 학습에서 이전의 작업보다 약 6% 높은 정확도를 달성하였다.
MAP 추론을 사용하는 등방성 가우시안 사전분포가 정확도, 교정도, 계산 효율성의 균형을 가장 잘 유지하며, GMM 및 라플라스 사전분포보다 뛰어난 성능을 보였다.
라플라스 및 GMM(10, iso)를 제외한 모든 방법이 낮은 기대교정오차(ECE)를 기록하여, 잘 校정된 불확실성 추정이 이루어졌음을 시사한다.
MCMC 추론을 사용할 경우 교정도는 약간 향상되었지만, 계산 비용이 크게 증가하여 MAP 추론에 비해 실용성이 떨어진다.
프리트레이닝 단계에서의 배치 분류 정확도가 높을수록 소수의 샘플로도 일반화 성능이 향상됨을 보여주었으며, 이는 우수한 성능을 내기 위해 에피소드 기반 훈련이 반드시 필요하다는 믿음에 도전한다.
GMM과 같은 혼합모델은 높은 표현 능력을 지니고 있음에도 불구하고 성능 향상이 없었는데, 이는 원래 클래스 수가 적고 가중치 공간의 차원이 높아 복잡한 모델을 피팅하기 어려운 데 기인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.