Skip to main content
QUICK REVIEW

[논문 리뷰] Task-customized Masked AutoEncoder via Mixture of Cluster-conditional Experts

Zhili Liu, Kai Chen|arXiv (Cornell University)|2024. 02. 08.
Advanced Clustering Algorithms Research인용 수 6
한 줄 요약

MoCE를 제안하는 분할-가이드 혼합 전문가 확장(MoCE), 작업 맞춤형 자기지도 학습 사전학습을 위한 MAE의 클러스터링 기반 확장으로 11개의 다운스트림 작업에서 전이 성능 향상 및 탐지/분할에서의 최첨단 결과를 제공합니다.

ABSTRACT

Masked Autoencoder~(MAE) is a prevailing self-supervised learning method that achieves promising results in model pre-training. However, when the various downstream tasks have data distributions different from the pre-training data, the semantically irrelevant pre-training information might result in negative transfer, impeding MAE's scalability. To address this issue, we propose a novel MAE-based pre-training paradigm, Mixture of Cluster-conditional Experts (MoCE), which can be trained once but provides customized pre-training models for diverse downstream tasks. Different from the mixture of experts (MoE), our MoCE trains each expert only with semantically relevant images by using cluster-conditional gates. Thus, each downstream task can be allocated to its customized model pre-trained with data most similar to the downstream data. Experiments on a collection of 11 downstream tasks show that MoCE outperforms the vanilla MAE by 2.45\% on average. It also obtains new state-of-the-art self-supervised learning results on detection and segmentation.

연구 동기 및 목표

  • 표준 MAE를 semantically 다른 다운스트림 작업으로 전이할 때 부정 전이가 발생하는지 입증합니다.
  • Self-supervised 설정에서 MAE에 naive TokenMoE를 적용하는 한계점을 식별합니다.
  • 의미적으로 유사한 이미지 클러스터에서 전문가를 학습시키기 위해 MoCE를 도입합니다.
  • MoCE가 여러 다운스트림 작업 및 배포에서 우수한 전이를 달성하는지 보여줍니다.
  • 효율적 추론을 위한 작업 맞춤형 MoCE 모델 배포에 대한 지침을 제공합니다.

제안 방법

  • 사전 학습 데이터를 사전 학습된 MAE의 특징을 사용해 의미적으로 일관된 그룹으로 클러스터링합니다.
  • 선택적 MLP 계층을 MoCE 게이트로 대체해 이미지 토큰을 클러스터 조건의 전문가로 라우팅합니다.
  • 각 전문가는 할당된 클러스터의 데이터에서 학습하도록 하는 증류 손실을 사용해 학습을 안정화합니다.
  • 배포 시 클러스터링 모듈을 사용해 다운스트림 작업과 가장 의미론적으로 관련된 전문가를 선택합니다.
  • 자신감 있는 게이트 라우팅을 장려하기 위해 불균형성/정규화 손실을 도입합니다.

실험 결과

연구 질문

  • RQ1MAE가 의미적으로 다양한 다운스트림 작업에서 부정 전이를 겪을 수 있는가?
  • RQ2MAE에 Tokens MoE를 나열적으로 적용하면 전이 성능이 개선되는가 아니면 저하되는가?
  • RQ3클러스터 조건 라우팅으로 MoCE가 일반 MAE 및 TokenMoE보다 더 나은 작업 특화 사전학습을 가능하게 하는가?
  • RQ4MoCE가 탐지 및 분할을 포함한 다양한 다운스트림 작업에서 어떻게 성능을 발휘하는가?

주요 결과

AircraftCaltechCarsC10C100DTDFlowersFoodPetsSUNVOCAvg.
72.7191.2484.4796.1577.3375.0596.2580.4992.7862.4685.0283.09
70.5189.7081.4095.1876.4473.6795.0977.4590.7161.1280.1581.04
75.7789.7386.6595.3183.6073.6295.5384.7791.2564.6483.5184.03
76.5790.0486.9596.9281.4273.0996.1482.9092.6564.4085.3784.22
78.7390.6188.5697.7984.6874.0496.9486.2493.0765.0585.2685.54
  • MoCE는 11개의 다운스트림 작업에서 MAE*에 비해 Top-1 정확도에서 평균 최대 2.45% 향상을 달성합니다.
  • MoCE는 탐지 및 분할 벤치마크에서 최첨단의 자기지도 학습 결과를 제공합니다.
  • TokenMoE는 의미론 비적합한 라우팅으로 인해 MAE를 개선하지 못하거나 오히려 저하될 수 있습니다.
  • MoCE의 클러스터 조건 전문가들은 의미적으로 응집력 있는 특화 기능(예: 의상, 새, 개)을 학습합니다.
  • 하나의 활성 MoCE 전문가로의 배포는 테스트 시 파라미터 수를 절반으로 줄이고 효율을 향상시킬 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.