Skip to main content
QUICK REVIEW

[논문 리뷰] Spectral Manifold Regularization for Stable and Modular Routing in Deep MoE Architectures

İbrahim Delibaşoğlu|arXiv (Cornell University)|2026. 01. 07.
Domain Adaptation and Few-Shot Learning인용 수 0
한 줄 요약

논문은 SR-MoE를 도입합니다. SR-MoE는 스펙트럴 노름과 안정적인 랭크 제약을 통해 라우팅의 안정성 및 모듈화를 강제하고, 원샷 적응을 개선하며 딥 MoE 모델에서 전문가 붕괴를 방지합니다.

ABSTRACT

Mixture of Experts (MoE) architectures enable efficient scaling of neural networks but suffer from expert collapse, where routing converges to a few dominant experts. This reduces model capacity and causes catastrophic interference during adaptation. We propose the Spectrally-Regularized Mixture of Experts (SR-MoE), which imposes geometric constraints on the routing manifold to enforce structural modularity. Our method uses dual regularization: spectral norm constraints bound routing function Lipschitz continuity, while stable rank penalties preserve high-dimensional feature diversity in expert selection. We evaluate SR-MoE across architectural scales and dataset complexities using modular one-shot adaptation tasks. Results show that traditional linear gating fails with increasing depth (accuracy drops up to 4.72% due to expert entanglement), while SR-MoE maintains structural integrity (mean interference -0.32%). Our spectral constraints facilitate positive knowledge transfer, enabling localized expert updates without global performance decay. SR-MoE provides a general solution for building high-capacity, modular networks capable of stable lifelong learning.

연구 동기 및 목표

  • Mixture of Experts (MoE) 아키텍처에서 전문가 붕괴 및 라우팅 불안정을 해결한다.
  • 고차원적이고 안정적인 라우팅 매니폴드를 유지하기 위한 기하학적, 스펙트럼 정보를 반영한 제약을 부과한다.
  • 원샷 학습 중 전역 성능 저하 없이 수술적이고 국소적인 업데이트를 가능하게 한다.
  • 얕은 MoE에서 깊은 MoE로의 확장성 및 모듈성, 전달성을 개선한다.
  • 스펙트럴 규제가 긍정적 지식 전달 및 지속적 적응성을 촉진한다.

제안 방법

  • 표준 게이팅을 잠재 공간에서 학습 가능한 프로토타입에 대해 음수 거리의 소프트맥스로 학습하는 프로토타입 기반 라우터로 대체한다.
  • 게이팅 가중치에 두 가지 스펙트럴 제약을 적용한다: Lipschitz 상수를 제한하는 스펙트럴-노름 패널티와 고차원 특성 다양성을 보존하는 안정적 랭크 패널티.
  • 전문가 중요도의 변동계수(coefficient of variation)에 기반한 부하 균형 손실을 추가하여 전문가의 미활용을 방지한다.
  • 작업 손실과 스펙트럴-노름, 안정적 랭크, 다양성 패널티를 결합한 다목적 손실로 학습한다.
  • 수술적 적응 과정에서 안정성을 유지하기 위한 원샷 업데이트를 위한 Anchor-Batch 전략을 사용한다.
  • 소규모 및 상대적으로 큰 데이터셋에서 평가하고, 깊이 4층, 4전문가 MoE 구성에서 평가한다.
Figure 1: Deep SR-MoE Architecture. The model processes inputs through $N$ successive layers. In each layer, a bank of $K$ experts is available. The Spectral Regularization is strictly applied to the routing weights $\bm{W}_{g}$ in every layer to ensure manifold diversity. Surgical updates are perfo
Figure 1: Deep SR-MoE Architecture. The model processes inputs through $N$ successive layers. In each layer, a bank of $K$ experts is available. The Spectral Regularization is strictly applied to the routing weights $\bm{W}_{g}$ in every layer to ensure manifold diversity. Surgical updates are perfo

실험 결과

연구 질문

  • RQ1스펙트럴 규제가 MoE 아키텍처의 라우팅 안정성과 모듈성에 어떤 영향을 미치는가?
  • RQ2스펙트럴로 제약된 라우터가 원샷 적응 중 전문가 붕괴를 방지하고 고차원 라우팅 매니폴드를 유지할 수 있는가?
  • RQ3SR-MoE가 더 깊은 MoE 아키텍처와 더 큰 데이터셋에 확장되면서 모듈성 및 가소성을 유지하는가?
  • RQ4스펙트럴 제약이 지식 전달 및 국소적 전문가 업데이트에 미치는 영향은?

주요 결과

  • 기본 MoE 모델은 단일 전문가에 과도하게 의존하여 경로 붕괴를 보인다.
  • 스펙트럴 클러스터링은 더 높은 경로 다양성을 유지하고 모듈식 라우팅을 달성하여 원샷 업데이트 중 간섭을 감소시킨다.
  • 깊은 MoE(4층, 4전문가)에서 스펙트럴 규제는 업데이트 이전 최고 정확도(80.44%)와 가장 안정적인 원샷 간섭(평균 Delta -0.32%)을 제공한다.
  • 원샷 업데이트에서 SR-MoE는 수술적 플라스틱성으로, Car의 정확도 증가(+1.17%), Face의 감소(-0.21%) 등 다수 카테고리에서 양의 또는 거의 제로인 정확도 차이를 보인다.
  • SR-MoE는 깊은 설정에서 평균 간섭이 -0.32%로 Baseline(-4.72%) 및 클러스터링(-1.22%)을 능가한다.
  • 그래디언트 생터 분석은 SR-MoE 하에서 전문가들 간 분산된 그래디언트 업데이트를 보여주어 Baseline에서 관찰되던 dead-weight 문제를 회피한다.
(a) Baseline
(a) Baseline

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.