[論文レビュー] What Gets Activated: Uncovering Domain and Driver Experts in MoE Language Models
要約: 本論文はエントロピーに基づく指標と因果効果メトリクスを用いてMoE言語モデルにおけるドメイン専門家とドライバー専門家を特定し、トークン-triggerパターンを分析し、ドメイン/ドライバー専門家の重みを調整することで3つのMoE LLMと3つのドメインで性能向上を示す。
Most interpretability work focuses on layer- or neuron-level mechanisms in Transformers, leaving expert-level behavior in MoE LLMs underexplored. Motivated by functional specialization in the human brain, we analyze expert activation by distinguishing domain and driver experts. In this work, we study expert activation in MoE models across three public domains and address two key questions: (1) which experts are activated, and whether certain expert types exhibit consistent activation patterns; and (2) how tokens are associated with and trigger the activation of specific experts. To answer these questions, we introduce entropy-based and causal-effect metrics to assess whether an expert is strongly favored for a particular domain, and how strongly expert activation contributes causally to the model's output, thus identify domain and driver experts, respectively. Furthermore, we explore how individual tokens are associated with the activation of specific experts. Our analysis reveals that (1) Among the activated experts, some show clear domain preferences, while others exert strong causal influence on model performance, underscoring their decisive roles. (2) tokens occurring earlier in a sentence are more likely to trigger the driver experts, and (3) adjusting the weights of domain and driver experts leads to significant performance gains across all three models and domains. These findings shed light on the internal mechanisms of MoE models and enhance their interpretability.
研究の動機と目的
- layer/ニューロンレベルの分析を超えて MoEベースのLLMの解釈性を動機付け、専門家レベルの活性化に焦点を当てる。
- ドメイン専門家をドメイン特化ルータとして、ドライバー専門家を因果的に影響力のあるルータとして定義する。
- 複数のMoE LLMsとドメイン全体にわたってドメインおよびドライバー専門家を特定するためのエントロピー基盤と因果効果メトリクスを開発する。
- トークンがどの専門家をトリガーし、専門家の重みを調整することで性能がどう影響されるかを調査する。
提案手法
- 神経科学に着想を得た専門家として特殊化されたMoE専門家と因果的に影響力のあるMoE専門家としてのドメイン専門家とドライバー専門家を定義する。
- ドメイン固有の活性化エントロピー H_i(D_j) と活性化率 A_i(D_j) を作成し、確信重み付き活性化スコア S_i(D_j) を計算する。
- ゲーティングロジットを摂動して因果効果を推定し、P(X) と Q(X) の間のKLダイバージェンスを用いて出力変化を測定する。
- 二項化の単純化を用いたトップ-k ルーティングを用いてドメイン活性化を計算し、介在因果グラフをパールに着想を得た分析として用いる。
- 3つのMoE LLMs(Mixtral、DeepSeek-MoE、Qwen-MoE)を3つのドメイン(SA、MMLU、Math)で評価し、トークン–専門家のマッピングを分析する。
- ドメイン/ドライバー専門家を上方補正/下方補正する効果と、LoRAでルータを微調整して性能向上を評価する。
実験結果
リサーチクエスチョン
- RQ1どの専門家がMoE LLMsとドメイン全体で活性化されるのか、特定のタイプが一貫した活性化パターンを示すのか。
- RQ2トークンはどのように特定のドメイン/ドライバ専門家の活性化と関連づけられ、トリガーできるのか。
- RQ3ドメインおよびドライバー専門家の活性化は因果的にモデル出力に影響を与えるのか、そしてそれらのルーティング重みを調整することで性能を改善できるのか。
- RQ4文の早いトークンはドライバー/ドメイン専門家の活性化により影響を与えやすいのか、ドメイン対ドライバー活性化を特徴づけるトークンは何か。
主な発見
- 全般的な専門家がドメイン全体の活性化を支配する一方で、ドメインおよびドライバー専門家は少数派だがSAおよびMathドメインでより影響力が大きい。
- ドライバー専門家は中間層に多く、ネットワークの途中で因果的影響を高める傾向がある。3モデル中、DeepSeekが最も強い因果感度を示す。
- ドメインまたはドライバー専門家を上方補正するとSAおよびMathドメインで一貫した性能向上を示し、3モデルすべてで効果が見られる。一方、下方補正は特にドライバー専門家が縮小される場合に性能を低下させる。
- 文中の早いトークンはドライバー専門家を活性化させる可能性が高く、エキスパートルーティングにおけるトークン位置効果を示す。
- 代表的なドメインおよびドライバー用トークンはドメインによって異なり(例:SAは感情/状況ヒント、Mathは演算用語)、タスク対応のルーティング戦略を導くトークン–専門家連携を明らかにする。
- モデルおよびドメインを横断して、専門家の重みを調整することで、精度/F1の測定可能な向上を得られる可能性がある(例えば、ドメイン専門家で平均精度2.08%、ドライバー専門家で平均3.00%の向上が要約に記載)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。