Skip to main content
QUICK REVIEW

[논문 리뷰] Hierarchically Structured Meta-learning

Huaxiu Yao, Ying Wei|arXiv (Cornell University)|2019. 05. 13.
Domain Adaptation and Few-Shot Learning인용 수 116
한 줄 요약

HSML은 과제-클러스터링된, 클러스터에 맞춘 메타지식을 gradient-based 메타학습 위에 학습시켜, toy 회귀 및 few-shot 이미지 분류에서 최첨단 성과를 내면서 클러스터 간 일반화도 유지한다.

ABSTRACT

In order to learn quickly with few samples, meta-learning utilizes prior knowledge learned from previous tasks. However, a critical challenge in meta-learning is task uncertainty and heterogeneity, which can not be handled via globally sharing knowledge among tasks. In this paper, based on gradient-based meta-learning, we propose a hierarchically structured meta-learning (HSML) algorithm that explicitly tailors the transferable knowledge to different clusters of tasks. Inspired by the way human beings organize knowledge, we resort to a hierarchical task clustering structure to cluster tasks. As a result, the proposed approach not only addresses the challenge via the knowledge customization to different clusters of tasks, but also preserves knowledge generalization among a cluster of similar tasks. To tackle the changing of task relationship, in addition, we extend the hierarchical structure to a continual learning environment. The experimental results show that our approach can achieve state-of-the-art performance in both toy-regression and few-shot image classification problems.

연구 동기 및 목표

  • 메타러닝이 작업 불확실성과 이질성을 처리하도록 지식을 전역적으로가 아니라 계층적으로 구조화해야 한다는 점을 동기 부여한다.
  • HSML을 제안하여 작업을 클러스터링하고 클러스터별로 초기화를 맞춤화하여 빠른 적응을 가능하게 한다.
  • 새로운 작업이 arrive 할 때 계층적 클러스터링 구조를 업데이트하여 지속적 학습을 가능하게 한다.
  • toy 회귀 및 few-shot 이미지 분류 작업에서 baselines에 비해 empirical gains를 보여준다.
  • 클러스터-특정 초기화의 잠재적 일반화 이점을 이론적으로 보여준다.

제안 방법

  • 각 작업을 훈련 예시들의 집합체로 표현하여 풀링 오토인코더(PAA) 또는 순환 오토인코더(RAA)를 이용해 작업 임베딩을 얻는다.
  • 다단계에서 작업을 부드럽게 클러스터에 할당하고 온라인으로 클러스터 표현을 업데이트하는 differentiable 계층적 클러스터링 구조를 구축한다.
  • 전역 공유 초기화를 클러스터-특정 초기화로 변환하는 클러스터-특정 파라미터 게이트를 도입하여 gradient-based 적응을 가능하게 한다.
  • 메타-테스트 성능과 재구성 손실을 결합한 손실로 클러스터링 파라미터, 기본 메타-학습기 초기화, 적응 규칙을 공동 최적화한다.
  • 새로운 작업이 기존 클러스터에 맞지 않을 때 클러스터링 구조를 확장하고 이전 지식의 재가중치를 통해 지속적 적응을 지원한다.

실험 결과

연구 질문

  • RQ1HSML이 합성 및 실제 소수 샘플 작업에서 기존의 gradient-based 메타러닝 방법들보다 더 나은 성능을 낼 수 있는가?
  • RQ2계층적 클러스터링이 해석 가능한 작업 관계와 의미 있는 클러스터를 산출하는가?
  • RQ3지속적 학습 설정에서 HSML이 변화하는 작업 분포를 수용하기 위해 클러스터링 구조를 adapt할 수 있는가?
  • RQ4작업 클러스터에 맞춘 초기화로 일반화를 향상시키고 단일 글로벌 초기화를 사용하는 경우와 비교했을 때 이론적 일반화 이점은 무엇인가?

주요 결과

모델Bird (5-way 1-shot)Texture (5-way 1-shot)Aircraft (5-way 1-shot)Fungi (5-way 1-shot)Average (5-way 1-shot)Bird (5-way 5-shot)Texture (5-way 5-shot)Aircraft (5-way 5-shot)Fungi (5-wide 5-shot)Average (5-way 5-shot)
MAML53.94±1.45%31.66±1.31%51.37±1.38%42.12±1.36%44.77%68.52±0.79%44.56±0.68%66.18±0.71%51.85±0.85%57.78%
Meta-SGD55.58±1.43%32.38±1.32%52.99±1.36%41.74±1.34%45.67%67.87±0.74%45.49±0.68%66.84±0.70%52.51±0.81%58.18%
MT-Net58.72±1.43%32.80±1.35%47.72±1.46%43.11±1.42%45.59%69.22±0.75%46.57±0.70%63.03±0.69%53.49±0.83%58.08%
BMAML54.89±1.48%32.53±1.33%53.63±1.37%42.50±1.33%45.89%69.01±0.74%46.06±0.69%65.74±0.67%52.43±0.84%58.31%
MUMOMAML56.82±1.49%33.81±1.36%53.14±1.39%42.22±1.40%46.50%70.49±0.76%45.89±1.36%67.31±0.68%53.96±0.82%59.41%
HSML (ours)60.98±1.50%35.01±1.36%57.38±1.40%44.02±1.39%49.35%71.68±0.73%48.08±0.69%73.49±0.68%56.32±0.80%62.39%
  • HSML은 MAML 및 MT-Net과 같은 baselines와 비교했을 때 toy 5-shot/10-shot 회귀 작업에서 평균 제곱 오차(mean-squared-error)가 더 작다.
  • 네 가지 데이터셋에 걸친 few-shot 이미지 분류에서 HSML은 평균 정확도에서 최고치를 달성하고 5-way 1-shot 및 5-shot 설정에서 일관되게 baselines를 능가한다.
  • HSML의 소프트 작업 클러스터링은 작업 유형과의 해석 가능한 클러스터 정렬을 보여주며, 작업 간 의미 있는 관계를 발견하는 능력을 시연한다.
  • 지속적 적응 실험에서 HSML-D(동적 클러스터링)가 고정 클러스터링 변형보다 우수한 성능을 보이며 분포 drift에 대한 강인성을 입증한다.
  • 이론적 분석은 HSML이 cluster-specific 초기화를 가능하게 하여 MAML보다 더 촘촘한 일반화 경계를 얻을 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.