Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Mixture of Experts via Shallow Embedding

Xin Wang, Fisher Yu|arXiv (Cornell University)|2018. 06. 05.
Domain Adaptation and Few-Shot Learning참고 문헌 45인용 수 27
한 줄 요약

이 논문은 얕은 임bedding 네트워크와 다중 헤드 희소 게이팅을 사용하여 합성곱 네트워크에서 채널별 특징을 동적으로 희소화하고 재조정하는 딥 모이어 오브 응용(DeepMoE) 아키텍처를 제안한다. 정밀도와 다양성 정규화를 함께 적용하여 기본 네트워크, 임베딩 네트워크, 게이팅 네트워크를 공동으로 훈련함으로써 DeepMoE는 계산량을 줄이고도 표준 네트워크보다 높은 정확도를 달성하며, FLOPs를 낮추면서 ImageNet에서 ResNet을 1% 뛰어넘는 상위-1 정확도를 기록한다.

ABSTRACT

Larger networks generally have greater representational power at the cost of increased computational complexity. Sparsifying such networks has been an active area of research but has been generally limited to static regularization or dynamic approaches using reinforcement learning. We explore a mixture of experts (MoE) approach to deep dynamic routing, which activates certain experts in the network on a per-example basis. Our novel DeepMoE architecture increases the representational power of standard convolutional networks by adaptively sparsifying and recalibrating channel-wise features in each convolutional layer. We employ a multi-headed sparse gating network to determine the selection and scaling of channels for each input, leveraging exponential combinations of experts within a single convolutional network. Our proposed architecture is evaluated on four benchmark datasets and tasks, and we show that Deep-MoEs are able to achieve higher accuracy with lower computation than standard convolutional networks.

연구 동기 및 목표

  • 합성곱 네트워크에서 예측 별로 특징을 동적으로 라우팅할 수 있는 딥 모이어 오브 응용(DeepMoE) 아키텍처를 설계하는 것.
  • 딥 MoE 스택에서의 비미분 가능 전문가 선택 및 열악한 전문가 조합 문제를 해결하는 것.
  • 희소성과 채널별 재조정을 통해 계산 비용을 줄이면서도 깊은 네트워크의 표현력을 유지하는 것.
  • 이미지 분류 및 의미 세그멘테이션 작업에서 표준 합성곱 네트워크와 이전 MoE 방법보다 정확도와 효율성을 향상시키는 것.

제안 방법

  • 고정된 전문가 집합에 대해 소프트맥스 출력 레이어를 가진 얕은 임베딩 네트워크가 잠재적인 혼합 가중치를 생성한다.
  • 이러한 잠재 가중치는 각 합성곱 레이어의 채널을 선택하고 재가중하기 위해 ReLU 활성화를 사용하는 다중 헤드 희소 게이팅 네트워크로 공급된다.
  • 정밀도와 다양성 정규화를 적용하여 게이팅 네트워크 출력에 대해 희소성 정규화를 수행하고, 임베딩 네트워크에 보조 분류 손실을 적용함으로써 공동 훈련을 수행한다.
  • 두 가지 변종이 도입된다: 넓은-DeepMoE(채널 수를 두 배로 늘리고 레이어를 MoE로 교체)와 좁은-DeepMoE(기본 레이어를 MoE로 직접 교체).
  • 이 아키텍처는 입력 별로 특징을 동적으로, 예측에 따라 라우팅할 수 있도록 하여, 각 입력에 대해 일부 채널만 계산되도록 한다.
  • 이론적 분석은 DeepMoE가 계산량을 줄이면서도 깊은 네트워크의 초초기 표현력을 유지함을 보여준다.

실험 결과

연구 질문

  • RQ1비미분 가능 전문가 선택에도 불구하고 딥 모이어 오브 응용 아키텍처를 종단 간(end-to-end) 공동 훈련할 수 있는가?
  • RQ2희소 게이팅을 통한 동적 채널별 라우팅이 깊은 네트워크에서 정확도를 향상시키고 계산 비용을 줄일 수 있는가?
  • RQ3제안된 얕은 임베딩 네트워크가 레이어 간 안정적이고 다양한 전문가 활용에 기여하는 방식은 무엇인가?
  • RQ4DeepMoE는 이미지 분류를 넘어 의미 세그멘테이션과 같은 조밀한 예측 작업으로 일반화될 수 있는가?
  • RQ5아키텍처 설계 선택 사항(예: 넓히기 전략, 레이어 배치)이 모델 정확도와 효율성에 미치는 영향은 무엇인가?

주요 결과

  • DeepMoE는 ImageNet2012 벤치마크에서 ResNet보다 1% 높은 상위-1 정확도를 달성하면서 FLOPs를 감소시켰다.
  • CityScapes에서 효율적인 넓은-DeepMoE-50-A 변종은 FLOPs의 약간의 증가로 기준 모델 대비 mIoU를 1.5% 향상시켰다.
  • 더 정확한 넓은-DeepMoE-50-B 변종은 FLOPs를 낮추면서도 기준 모델 대비 약 2% mIoU를 뛰어넘는 성능을 보였다.
  • 모든 합성곱 레이어를 넓히는 것(W13-All)은 상하단 레이어만 넓힐 경우와 동일한 파라미터 수로도 더 높은 정확도를 얻었으며, 이는 더 나은 성능을 의미한다.
  • FLOPs와 파라미터를 동시에 제어하면 모든 넓히기 전략에서 정확도 향상이 이루어지며, W13-All이 여전히 최고 성능을 보였다.
  • 임베딩 및 게이팅 네트워크 행동 분석을 통해 제안된 아키텍처가 데이터의 거시적 클래스 구조를 성공적으로 해결함을 확인할 수 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.