[논문 리뷰] HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts
HyperMoE는 공유 하이퍼네트워크를 통해 unselected expert 정보를 조건으로 하는 HyperExperts를 생성하여 Mixture of Experts에서 교차 전문가 지식 전달을 도입하고, 희소 라우팅 하에서 성능을 향상시킵니다.
The Mixture of Experts (MoE) for language models has been proven effective in augmenting the capacity of models by dynamically routing each input token to a specific subset of experts for processing. Despite the success, most existing methods face a challenge for balance between sparsity and the availability of expert knowledge: enhancing performance through increased use of expert knowledge often results in diminishing sparsity during expert selection. To mitigate this contradiction, we propose HyperMoE, a novel MoE framework built upon Hypernetworks. This framework integrates the computational processes of MoE with the concept of knowledge transferring in multi-task learning. Specific modules generated based on the information of unselected experts serve as supplementary information, which allows the knowledge of experts not selected to be used while maintaining selection sparsity. Our comprehensive empirical evaluations across multiple datasets and backbones establish that HyperMoE significantly outperforms existing MoE methods under identical conditions concerning the number of experts.
연구 동기 및 목표
- MoE에서 희소성과 지식 가용성 간의 trade-off를 자극하고 전문가 사용량 증가에 따른 희소성 감소를 다룬다.
- HyperMoE는 unselected-expert 정보를 이용해 cross-expert HyperExperts를 생성하는 HyperNetwork 기반 MoE 프레임워크이다.
- 선택된 전문가로의 지식 전달을 긍정적으로 촉진하면서도 희소한 전문가 라우팅을 보존한다.
- 강력한 MoE 베이스라인과 비교하여 다양한 NLP 태스크 및 백본에서 실증적 이득을 보여준다.
제안 방법
- Unselected-expert 정보를 조건으로 하여 생성된 HyperExperts를 갖는 공유 하이퍼네트워크(HyperMoE 아키텍처)를 도입한다.
- 토큰별로 비선택 전문가에 대한 정보를 인코딩하는 Selection Embedding을 정의한다.
- 하이퍼네트워크 H_e(k^i_τ)에 의해 생성된 가중치 D^τ_i와 U^τ_i를 갖는 병목 어댑터 스타일의 조건부 전문가를 사용한다.
- HyperExpert 출력을 표준 MoE 라우팅과 병행하여 y_i = sum_r G(x_i)_r E_r(x_i) + Ŝ_i(x_i)로 통합한다.
- Cross-layer 정보 흐름과 파라미터 효율성을 위해 트랜스포머 계층 전체에서 하이퍼네트워크를 공유한다.
실험 결과
연구 질문
- RQ1공유 하이퍼네트워크를 통한 교차 전문가 정보 전달이 희소성을 희생하지 않으면서 전문가 지식의 가용성을 개선할 수 있는가?
- RQ2Unselected-expert 정보로 조건화된 HyperExperts가 다양한 NLP 태스크와 백본에서 측정 가능한 이점을 제공하는가?
- RQ3HyperMoE는 Switch Transformer 베이스라인과 비교했을 때 MoE 전문가 수를 확장해도 성능이 향상되는가?
- RQ4선택 임베딩과 하이퍼네트워크 조건화가 전달 효과성에 어떤 역할을 하는지에 대한 애뮬레이션은 어떤 시사를 주는가?
주요 결과
| 방법 | CoLA | SST-2 | STS-B | MRPC | QQP | MNLI | QNLI | RTE | 평균 |
|---|---|---|---|---|---|---|---|---|---|
| MoE | 54.24 | 93.81 | 88.69 | 87.90 | 90.58 | 87.93 | 91.68 | 67.35 | 82.77 |
| MoE-Share | 53.98 | 94.27 | 88.38 | 89.21 | 90.51 | 87.95 | 92.25 | 67.52 | 83.01 |
| HyperMoE (ours) | 54.67 | 94.38 | 88.68 | 89.63 | 90.52 | 88.43 | 92.64 | 67.01 | 83.25 |
| Table 2 row - NLG/QA/Other | - | - | - | - | - | - | - | - | - |
- HyperMoE는 GLUE 및 SuperGLUE 벤치마크에서 MoE 및 MoE-Share를 능가하며, Avg 개선은 각각 0.48 및 0.84포인트이다.
- NLG 태스크(XSum, CNNDM, SQuAD, WikiText)에서 HyperMoE가 baselines보다 더 높은 Rouge-2 또는 Exact Match 점수를 달성한다.
- 애뮬레이션은 임베딩 기반 조건화와 하이퍼네트워크 조건화가 성능에 기여하며, 임베딩 제거 또는 조건화 오구성은 정확도를 감소시킨다.
- 전문가 수를 늘리는(base-8, base-16, base-32) 경우 HyperMoE가 기저 대비 일관된 이득을 보인다.
- HyperMoE는 추가 HyperExpert 구성 요소로 인해 표준 MoE에 비해 약 15% 느린 학습 및 10% 느린 추론을 도입하나, 성능과 비용 간의 우호적 trade-off를 보여준다.
- selection embeddings가 교차 전문가 정보를 효과적으로 포착하며, unselected-expert embeddings가 강력한 조건 신호를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.