QUICK REVIEW

[논문 리뷰] Empirical Bayes Transductive Meta-Learning with Synthetic Gradients

Shell Xu Hu, Pablo García Moreno|arXiv (Cornell University)|2020. 04. 27.

Domain Adaptation and Few-Shot Learning참고 문헌 48인용 수 81

한 줄 요약

이 논문은 전이적 메타러닝 방법을 사용하여 경험적 베이즈와 합성 그래디언트를 통해 비레이블 쿼리 데이터를 활용하고, few-shot 벤치마크에서 최첨단 성능을 달성한다.

ABSTRACT

We propose a meta-learning approach that learns from multiple tasks in a transductive setting, by leveraging the unlabeled query set in addition to the support set to generate a more powerful model for each task. To develop our framework, we revisit the empirical Bayes formulation for multi-task learning. The evidence lower bound of the marginal log-likelihood of empirical Bayes decomposes as a sum of local KL divergences between the variational posterior and the true posterior on the query set of each task. We derive a novel amortized variational inference that couples all the variational posteriors via a meta-model, which consists of a synthetic gradient network and an initialization network. Each variational posterior is derived from synthetic gradient descent to approximate the true posterior on the query set, although where we do not have access to the true gradient. Our results on the Mini-ImageNet and CIFAR-FS benchmarks for episodic few-shot classification outperform previous state-of-the-art methods. Besides, we conduct two zero-shot learning experiments to further explore the potential of the synthetic gradient.

연구 동기 및 목표

무라틱? 메타러닝이 unlabeled query 데이터를 전이적 설정에서 활용하여 태스크별 모델을 개선하도록 동기를 부여한다.
쿼리 세트를 포함하는 다태스크 메타러닝에 대한 경험적 베이즈 형식을 개발한다.
합성-그래디언트 네트워크를 통한 EB 모델의 암묵적 추론(Amortized variational inference)을 제안한다.
전이적 변분 사후분포가 일반화 능력을 향상시킬 수 있음을 보인다.
표준 few-shot 벤치마크에서 방법을 실증적으로 검증하고 제로-샷 가능성을 탐구한다.]
method
- 메타러닝을 태스크별 가중치와 공유 메타 파라미터를 갖는 경험적 베이즈 모델로 형식화한다.
- q_theta(w_t)라는 변분 사후분포와 unlabeled query 데이터를 포함하는 labeled support와 함께 작동하는 암묵적 추론 네트워크 q_phi(d_t^l, x_t)을 도입한다.
- 정답 라벨에 접근할 수 없이도 진짜 그래디언트를 근사하기 위해 합성 그래디언트를 이용한 정확한 추론 다이나믹스를 xi 그래디언트 네트워크와 초기화 네트워크 lambda를 통해 펼친다.
- 내부 최적화를 theta_t^{k+1} = theta_t^k - eta [ E_epsilon[ (1/n) sum_i xi(y_hat_{t,i}) ∂y_hat_{t,i}/∂w_t ∂w_t/∂theta_t ] + ∇_{theta_t} KL(q_{theta_t^k}(w_t) || p_psi(w_t)) ], (식 (10)과 일치).
- 학습 목표를 과제 전체에 대한 KL-ELBO 합으로 정의하고, Information-Bottleneck 해석에 연결된 Synthetic Information Bottleneck (SIB)로 명명한다.
- f, psi, phi (lambda, xi)를 내부 합성 그래디언트 단계와 함께 학습시키는 실용적 알고리즘(Algorithm 1)을 제시한다.

제안 방법

메타러닝을 태스크별 가중치와 공유 메타 파라미터를 가진 경험적 베이즈 모델로 형식화한다.
변분 사후분포 q_theta(w_t)와 unlabeled query 데이터를 포함하는 labeled support와 함께 작동하는 암묵적 추론 네트워크 q_phi(d_t^l, x_t)를 도입한다.
라벨이 없는 실제 그래디언트를 근사하기 위해 합성 그래디언트를 이용한 정확한 추론 다이나믹스를 xi 그래디언트 네트워크와 초기화 네트워크 lambda를 통해 펼친다.
내부 최적화를 theta_t^{k+1} = theta_t^k - eta [ E_epsilon[ (1/n) sum_i xi(y_hat_{t,i}) ∂y_hat_{t,i}/∂w_t ∂w_t/∂theta_t ] + ∇_{theta_t} KL(q_{theta_t^k}(w_t) || p_psi(w_t)) ], (식 (10)과 일치).
훈련 목표를 과제별 KL-ELBO 총합으로 정의하고, Synthetic Information Bottleneck으로 불리는 정보병목 해석과 연결한다.
합성 그래디언트 단계(inner)들을 포함하는 f, psi, phi (lambda, xi)를 학습하는 실용 알고리즘(Algorithm 1)을 제시한다.

실험 결과

연구 질문

RQ1전이적 추론이 unlabeled query 입력을 사용하는 경우, inductive 접근법에 비해 메타러닝의 일반화를 향상시킬 수 있는가?
RQ2합성 그래디언트를 포함한 경험적 베이즈 형 메타러닝이 표준 벤치마크에서 소샷 성능을 더 향상시키는가?
RQ3전이적 변분 사후분포가 다태스크 설정에서 정보병목 기반 일반화와 어떤 관계가 있는가?
RQ4합성 그래디언트 단계 수 K의 변화가 성능에 어떤 영향을 미치는가?
RQ5지원 라벨이 전혀 없는 제로샷 학습 시나리오로도 방법을 확장할 수 있는가?

주요 결과

Method	Backbone	1-shot	5-shot	1-shot (CIFAR-FS)	5-shot (CIFAR-FS)
Matching Net (Vinyals et al., 2016)	Conv-4-64	44.2%	57%	–	–
MAML (Finn et al., 2017)	Conv-4-64	48.7 ± 1.8%	63.1 ± 0.9%	58.9 ± 1.9%	71.5 ± 1.0%
Prototypical Net (Snell et al., 2017)	Conv-4-64	49.4 ± 0.8%	68.2 ± 0.7%	55.5 ± 0.7%	72.0 ± 0.6%
Relation Net (Sung et al., 2018)	Conv-4-64	50.4 ± 0.8%	65.3 ± 0.7%	55.0 ± 1.0%	69.3 ± 0.8%
GNN (Satorras & Bruna, 2017)	Conv-4-64	50.3%	66.4%	61.9%	75.3%
R2-D2 (Bertinetto et al., 2018)	Conv-4-64	49.5 ± 0.2%	65.4 ± 0.2%	62.3 ± 0.2%	77.4 ± 0.2%
TPN (Liu et al., 2018)	Conv-4-64	55.5%	69.9%	–	–
Gidaris & Komodakis (2018)	Conv-4-64	54.8 ± 0.4%	71.9 ± 0.3%	63.5 ± 0.3%	79.8 ± 0.2%
SIB K=0 (Pre-trained feature)	Conv-4-64	50.0 ± 0.4%	67.0 ± 0.4%	59.2 ± 0.5%	75.4 ± 0.4%
SIB η=1e-3, K=3	Conv-4-64	58.0 ± 0.6%	70.7 ± 0.4%	68.7 ± 0.6%	77.1 ± 0.4%
SIB η=1e-3, K=0	Conv-4-128	53.62 ± 0.79%	71.48 ± 0.64%	–	–
SIB η=1e-3, K=1	Conv-4-128	58.74 ± 0.89%	74.12 ± 0.63%	–	–
SIB η=1e-3, K=3	Conv-4-128	62.59 ± 1.02%	75.43 ± 0.67%	–	–
SIB η=1e-3, K=5	Conv-4-128	63.26 ± 1.07%	75.73 ± 0.71%	–	–
SIB η=1e-3, K=0	WRN-28-10	60.6 ± 0.4%	77.5 ± 0.3%	70.0 ± 0.5%	83.5 ± 0.4%
SIB η=1e-3, K=1	WRN-28-10	67.3 ± 0.5%	78.8 ± 0.4%	76.8 ± 0.5%	84.9 ± 0.4%
SIB η=1e-3, K=3	WRN-28-10	69.6 ± 0.6%	78.9 ± 0.4%	78.4 ± 0.6%	85.3 ± 0.4%
SIB η=1e-3, K=5	WRN-28-10	70.0 ± 0.6%	79.2 ± 0.4%	80.0 ± 0.6%	85.3 ± 0.4%

합성 그래디언트를 포함한 SIB가 MiniImageNet 및 CIFAR-FS에서 1-샷 정확도를 여러 기준선보다 크게 향상시킨다.
K를 0에서 3 또는 5로 증가시키면 다양한 백본에서 1-샷 설정의 성능이 증가한다.
5-샷의 경우 strongest 트랜스덕티브 방법이나 CTM/Gidaris et al. 변형에 비해 항상 우수하진 않더라도 상태-오브-더-아트에 근접하거나 경쟁적이다.
다른 특징 백본(Conv-4-64, Conv-4-128, WRN-28-10)에 대해 방법의 견고성이 확인된다.
또한 표준 메타러닝을 넘어서는 합성 그래디언트 프레임워크의 제로샷 회귀 태스크 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.