[論文レビュー] Spectral Manifold Regularization for Stable and Modular Routing in Deep MoE Architectures
本論文は SR-MoE を導入する。スペクトルノルムと安定ランク制約を用いてルーティングの安定性とモジュラリティを強化し、ワンショット適応を改善するとともに深い MoE モデルでの専門家崩壊を抑制する。
Mixture of Experts (MoE) architectures enable efficient scaling of neural networks but suffer from expert collapse, where routing converges to a few dominant experts. This reduces model capacity and causes catastrophic interference during adaptation. We propose the Spectrally-Regularized Mixture of Experts (SR-MoE), which imposes geometric constraints on the routing manifold to enforce structural modularity. Our method uses dual regularization: spectral norm constraints bound routing function Lipschitz continuity, while stable rank penalties preserve high-dimensional feature diversity in expert selection. We evaluate SR-MoE across architectural scales and dataset complexities using modular one-shot adaptation tasks. Results show that traditional linear gating fails with increasing depth (accuracy drops up to 4.72% due to expert entanglement), while SR-MoE maintains structural integrity (mean interference -0.32%). Our spectral constraints facilitate positive knowledge transfer, enabling localized expert updates without global performance decay. SR-MoE provides a general solution for building high-capacity, modular networks capable of stable lifelong learning.
研究の動機と目的
- Mixture of Experts (MoE) アーキテクチャにおける専門家崩壊とルーティングの不安定性に対処する。
- 幾何学的・スペクトル情報に基づく制約を課し、高次元で安定したルーティング多様体を維持する。
- ワンショット学習時にグローバルな性能低下を伴わず、局所的・外科的な更新を可能にする。
- 浅いMoE設定から深いMoE設定へ、モジュラリティと転移性を改善してスケーラビリティを示す。
- スペクトル正則化が正の知識伝達と継続的適応性を促進することを示す。
提案手法
- 標準ゲーティングを latent 空間の学習可能なプロトタイプに対する距離の負数のソフトマックスを計算するプロトタイプベースのルータに置換する。
- ゲーティングウェイトに対して二つのスペクトル制約を課す:リップシッツ定数を有界にするスペクトルノルムペナルティと、高次元特徴の多様性を保持する安定ランクペナルティ。
- 専門家の重要度の変動係数に基づくロードバランシング損失を追加し専門家の過小利用を防ぐ。
- タスク損失とスペクトルノルム・安定ランク・多様性ペナルティを組み合わせた多目的損失で訓練する。
- 外科的適応時の安定性を維持するためのアンカーブラッチ戦略を用いてワンショット更新を行う。
- 小規模から比較的大規模なデータセット、深さ4層・4専門家MoE構成で評価する。

実験結果
リサーチクエスチョン
- RQ1スペクトル正則化はMoEアーキテクチャのルーティング安定性とモジュラリティにどう影響するか?
- RQ2スペクトル制約付きルータはワンショット適応時に専門家崩壊を防ぎ、高次元ルーティング多様体を維持できるか?
- RQ3SR-MoEはより深いMoEアーキテクチャや大規模データセットにスケールし、モジュラリティと可塑性を保てるか?
- RQ4スペクトル制約が知識伝達と局所的な専門家更新に与える影響はどの程度か?
主な発見
| Metric | Baseline | Clustering | Spectral (Ours) |
|---|---|---|---|
| Avg. Initial Acc | 84.23% | 83.28% | 82.97% |
| Accuracy Delta — Car | -1.15% | +0.89% | +1.17% |
| Accuracy Delta — Cat | -0.98% | +0.42% | +0.36% |
| Accuracy Delta — Elephant | -1.61% | +1.01% | +0.29% |
| Accuracy Delta — Face | -1.91% | -0.46% | -0.20% |
| Mean Delta | -1.41% | +0.47% | +0.41% |
| Path Diversity | 1 Path (Collapsed) | 4 Paths | 4 Paths |
- ベースラインMoEモデルは特定の専門家への過度な依存により経路崩壊を示す。
- スペクトルクラスタリングは経路多様性を維持し、モジュラールーティングを実現し、ワンショット更新時の干渉を低減する。
- 深さ4層・4専門家のMoEでは、スペクトル正則化が事前更新の最高精度(80.44%)と最も安定したワンショット干渉(平均Delta -0.32%)をもたらす。
- ワンショット更新を行う SR-MoE は外科的な可塑性を示し、Car 等で正またはほぼゼロに近い精度変化を示す例がある(例: Car +1.17%、Face -0.21%)。
- SR-MoE は深い設定で平均干渉 -0.32% を達成し、ベースライン (-4.72%) およびクラスタリング (-1.22%) を上回る。
- 勾配活性分析は SR-MoE 下で専門家に分散した勾配更新を示し、ベースラインで見られるデッドウェイト問題を回避している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。