QUICK REVIEW

[논문 리뷰] What Gets Activated: Uncovering Domain and Driver Experts in MoE Language Models

Guimin Hu, Meng Li|arXiv (Cornell University)|2026. 01. 15.

Explainable Artificial Intelligence (XAI)인용 수 0

한 줄 요약

논문은 엔트로피 기반 및 인과 효과 지표를 도입하여 MoE 언어 모델에서 도메인 및 드라이버 전문가를 식별하고, 토큰-유발 패턴을 분석하며, 도메인/드라이버 전문가 가중치를 조정하면 세 가지 MoE LLM과 세 가지 도메인에서 성능이 향상될 수 있음을 보여준다.

ABSTRACT

Most interpretability work focuses on layer- or neuron-level mechanisms in Transformers, leaving expert-level behavior in MoE LLMs underexplored. Motivated by functional specialization in the human brain, we analyze expert activation by distinguishing domain and driver experts. In this work, we study expert activation in MoE models across three public domains and address two key questions: (1) which experts are activated, and whether certain expert types exhibit consistent activation patterns; and (2) how tokens are associated with and trigger the activation of specific experts. To answer these questions, we introduce entropy-based and causal-effect metrics to assess whether an expert is strongly favored for a particular domain, and how strongly expert activation contributes causally to the model's output, thus identify domain and driver experts, respectively. Furthermore, we explore how individual tokens are associated with the activation of specific experts. Our analysis reveals that (1) Among the activated experts, some show clear domain preferences, while others exert strong causal influence on model performance, underscoring their decisive roles. (2) tokens occurring earlier in a sentence are more likely to trigger the driver experts, and (3) adjusting the weights of domain and driver experts leads to significant performance gains across all three models and domains. These findings shed light on the internal mechanisms of MoE models and enhance their interpretability.

연구 동기 및 목표

MoE 기반 LLM의 해석 가능성을 레이어/뉴런 수준 분석을 넘어서 전문가 수준의 활성화에 초점을 맞춰 자극한다.
도메인 전문가를 도메인 특화 라우터로, 드라이버 전문가를 인과적으로 영향력 있는 라우터로 정의한다.
여러 MoE LLM 및 도메인에 걸쳐 도메인 및 드라이버 전문가를 식별하기 위해 엔트로피 기반 및 인과 효과 지표를 개발한다.
토큰이 특정 전문가를 어떻게 트리거하는지와 전문가 가중치를 조정하는 것이 성능에 어떤 영향을 미치는지 조사한다.

제안 방법

신경과학에서 영감을 받아 도메인 전문가와 드라이버 전문가를 각각 특화된 및 인과적으로 영향력 있는 MoE 전문가로 정의한다.
도메인별 활성 엔트로피 H_i(D_j)와 활성화 비율 A_i(D_j)를 만들어 확실성 가중 활성화 점수 S_i(D_j)를 계산한다.
게이팅 로짓을 교란시키고 P(X)와 Q(X)의 KL 발산을 통해 출력 변화를 측정하여 드라이버 전문가의 인과 효과를 추정한다.
도메인 활성화를 계산하기 위해 이진 단순화를 가진 Top-k 라우팅을 사용하고 매개변수 분석을 위해 Pearl에서 영감을 받은 인과 그래프를 활용한다.
세 가지 MoE LLM(Mixtral, DeepSeek-MoE, Qwen-MoE)에서 세 가지 도메인(SA, MMLU, Math)에 대해 평가하고 토큰-전문가 매핑을 분석한다.
도메인/드라이버 전문가의 가중치를 상향하면 SA 및 Math 도메인에서 일관된 성능 향상과 세 모델 전반의 이득이 나타나고, 가중치를 하향하면 성능이 감소하며 특히 드라이버 전문가가 약화될 때 더 그렇다.

실험 결과

연구 질문

RQ1MoE LLM 및 도메인 전체에서 어떤 전문가들이 활성화되며, 특정 유형이 일관된 활성화 패턴을 보이는가?
RQ2토큰이 특정 도메인/드라이버 전문가의 활성화와 어떤 관련이 있으며 그것을 어떻게 트리거하는가?
RQ3도메인 및 드라이버 전문가의 활성화가 모델 출력에 인과적으로 영향을 미치는가, 그리고 그들의 라우팅 가중치를 조정하면 성능을 향상시킬 수 있는가?
RQ4초기 토큰이 드라이버/도메인 전문가 활성화에 더 큰 영향을 미치는가, 그리고 도메인 활성화와 드라이버 활성화를 특징짓는 토큰은 무엇인가?

주요 결과

일반 전문가가 모든 도메인에서 활성화를 지배하는 반면, 도메인 전문가와 드라이버 전문가는 소수이지만 SA 및 Math 도메인에서 더 큰 영향을 미친다.
드라이버 전문가는 중간 계층에 주로 위치하고 네트워크의 중간 단계에서 인과적 영향력을 증가시킨다; 세 모델 중에서 DeepSeek가 가장 강한 인과 민감도를 보여준다.
도메인 또는 드라이버 전문가의 가중치를 상향하면 SA 및 Math 도메인에서 일관된 성능 향상과 세 모델 전반의 이득이 나타나고, 가중치를 하향하면 성능이 감소하며 특히 드라이버 전문가가 약화될 때 더 그렇다.
문장 내 앞부분의 토큰이 드라이버 전문가 활성화를 더 잘 유도하는 경향이 있어 전문가 라우팅에 토큰 위치 효과가 있음을 시사한다.
도메인별로 대표적인 도메인 토큰과 드라이버 토큰이 다르게 나타나며(예: SA는 감정/ 情境 단서를 사용; Math는 연산 용어), 도메인-특화 토링 전략을 안내하는 고유한 토큰-전문가 연관성을 드러낸다.
모델과 도메인에 걸쳐 전문가 가중치를 조정하면 측정 가능한 정확도/ F1 향상을 얻을 수 있다(초록에 명시된 바와 같이 도메인 전문가의 평균 정확도 2.08%, 드라이버 전문가의 평균 정확도 3.00%).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.