[논문 리뷰] The Rise of Sparse Mixture-of-Experts: A Survey from Algorithmic Foundations to Decentralized Architectures and Vertical Domain Applications
희소 MoE 모델에 대한 포괄적 고찰로, 기초 라우팅 및 전문가 네트워크, 분산 학습/추론 패러다임, 수직 도메인 응용과 도전과제 및 향후 방향을 다룬다.
The sparse Mixture of Experts(MoE) architecture has evolved as a powerful approach for scaling deep learning models to more parameters with comparable computation cost. As an important branch of large language model(LLM), MoE model only activate a subset of experts based on a routing network. This sparse conditional computation mechanism significantly improves computational efficiency, paving a promising path for greater scalability and cost-efficiency. It not only enhance downstream applications such as natural language processing, computer vision, and multimodal in various horizontal domains, but also exhibit broad applicability across vertical domains. Despite the growing popularity and application of MoE models across various domains, there lacks a systematic exploration of recent advancements of MoE in many important fields. Existing surveys on MoE suffer from limitations such as lack coverage or none extensively exploration of key areas. This survey seeks to fill these gaps. In this paper, Firstly, we examine the foundational principles of MoE, with an in-depth exploration of its core components-the routing network and expert network. Subsequently, we extend beyond the centralized paradigm to the decentralized paradigm, which unlocks the immense untapped potential of decentralized infrastructure, enables democratization of MoE development for broader communities, and delivers greater scalability and cost-efficiency. Furthermore we focus on exploring its vertical domain applications. Finally, we also identify key challenges and promising future research directions. To the best of our knowledge, this survey is currently the most comprehensive review in the field of MoE. We aim for this article to serve as a valuable resource for both researchers and practitioners, enabling them to navigate and stay up-to-date with the latest advancements.
연구 동기 및 목표
- 희소 MoE 모델의 기초 설계 설명, 라우팅 네트워크와 전문가 네트워크에 초점을 맞춘다.
- MoE 시스템의 중앙집중식 대 분산식 학습/추론 패러다임 분석.
- 의료, 자율주행, 금융 등의 분야에서 MoE의 수직 도메인 응용 탐구.
- 주요 도전과제(부하 분산, 용량, 이질성, 프라이버시) 식별 및 향후 연구 방향 개요.
제안 방법
- 핵심 MoE 구성요소인 라우팅 네트워크와 전문가 네트워크를 검토하고 합성한다.
- 부하 분산 고려를 포함한 토큰 선택 라우팅과 전문가 선택 라우팅 등 라우팅 메커니즘을 논의한다.
- 공유 전문가와 해석가능성 측면 등 전문가 네트워크의 혁신을 기술한다.
- 하드웨어, 통신, 장애 허용성 이슈를 포함한 중앙집중식 대 분산식 패러다임을 대조한다.
- MoE 배치를 지원하는 관련 프레임워크와 수직 도메인 응용을 요약한다.
실험 결과
연구 질문
- RQ1희소 MoE 모델의 기본 구성요소와 메커니즘(라우팅 대 전문가 네트워크)은 무엇이며 이들이 어떻게 상호작용하는가?
- RQ2중앙집중식과 분산형 패러다임이 MoE 시스템의 확장성, 자원 활용, 접근성에 어떤 영향을 미치는가?
- RQ3MoE 접근법이 탐구된 수직 도메인 응용은 무엇이며 그에 따른 요구사항과 도전과제는 무엇인가?
- RQ4주요 도전과제(예: 부하 분산, 전문가 용량, 이질성, 프라이버시) 및 MoE 연구와 배치의 향후 방향은 무엇인가?
주요 결과
- 본 고찰은 MoE를 유사한 계산 예산에서 더 큰 매개변수 규모를 가능하게 하는 확장 가능한 접근법으로 제시한다.
- 토큰 선택 대 전문가 선택과 같은 라우팅 메커니즘 및 부하 분산 전략을 분석하며, 전문가 수준의 보조 손실 및 장치 수준 보조 손실과 전문가 용량 개념을 포함한다.
- 분산형 MoE 개념을 도입하고 이종 하드웨어, 대역폭 제한, 장애 허용성 및 보안/프라이버시에 대한 도전과제와 연구 노력을 강조한다.
- 중앙집중식 프레임워크와 하이브리드 병렬화 기법(데이터, 파이프라인, 텐서/Mei)을 다루고 전문가 병렬화 및 비동기적 접근 방식에 대해 논의한다.
- 의료 진단, 자율주행, 금융, 비즈니스 인텔리전스 등 수직 도메인 응용을 조사하며 MoE 적용 가능성의 폭을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.