[論文レビュー] HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts
HyperMoE は、未選択のエキスパート情報に条件づけられた HyperExperts を生成する共有ハイパーネットワークを介して、Mixture of Experts におけるクロスエキスパート知識転送を導入し、疎なルーティング下での性能を向上させる。
The Mixture of Experts (MoE) for language models has been proven effective in augmenting the capacity of models by dynamically routing each input token to a specific subset of experts for processing. Despite the success, most existing methods face a challenge for balance between sparsity and the availability of expert knowledge: enhancing performance through increased use of expert knowledge often results in diminishing sparsity during expert selection. To mitigate this contradiction, we propose HyperMoE, a novel MoE framework built upon Hypernetworks. This framework integrates the computational processes of MoE with the concept of knowledge transferring in multi-task learning. Specific modules generated based on the information of unselected experts serve as supplementary information, which allows the knowledge of experts not selected to be used while maintaining selection sparsity. Our comprehensive empirical evaluations across multiple datasets and backbones establish that HyperMoE significantly outperforms existing MoE methods under identical conditions concerning the number of experts.
研究の動機と目的
- MoE における疎性と知識可用性のトレードオフを動機づけ、エキスパート利用を増やす際の発疹性低下に対処する。
- HyperMoE は、未選択エキスパート情報を用いてクロスエキスパート HyperExperts を生成する HyperNetwork ベースの MoE フレームワークである。
- 選択されたエキスパートへの知識の正の転送を可能にしつつ、疎なエキスパートルーティングを保持する。
- 強力な MoE ベースラインと比較して、さまざまな NLP タスクとバックボーンで実証的な gains を示す。
提案手法
- 未選択エキスパート情報を条件づける共有ハイパーネットワークによって生成される HyperExperts で HyperMoE アーキテクチャを導入する。
- トークンごとに未選択エキスパート情報をエンコードする Selection Embedding を定義する。
- ハイパーネットワーク H_e(k^i_τ) によって生成される重み D^τ_i および U^τ_i を備えたボトルネックアダプター型条件付きエキスパートを使用する。
- HyperExpert の出力を標準の MoE ルーティングと並行して組み込み、y_i = sum_r G(x_i)_r E_r(x_i) + Ŝ_i(x_i) とする。
- 情報の流れとパラメータ効率のため、トランスフォーマー層間でハイパーネットワークを共有する。
実験結果
リサーチクエスチョン
- RQ1共有ハイパーネットワークを介したクロスエキスパート情報転送は、疎性を損なうことなくエキスパウト知識の可用性を改善できるか?
- RQ2未選択エキスパート情報で条件づけられた HyperExperts は、さまざまな NLP タスクとバックボーンで測定可能な gains を提供するか?
- RQ3Switch Transformer のベースラインと比較して MoE エキスパート数を拡大した際、HyperMoE の性能はどうなるか?
- RQ4選択埋め込みとハイパーネットワークの条件づけの役割についてのアブレーションは、転送効果にどのような影響を与えるか?
主な発見
| 手法 | CoLA | SST-2 | STS-B | MRPC | QQP | MNLI | QNLI | RTE | Avg |
|---|---|---|---|---|---|---|---|---|---|
| MoE | 54.24 | 93.81 | 88.69 | 87.90 | 90.58 | 87.93 | 91.68 | 67.35 | 82.77 |
| MoE-Share | 53.98 | 94.27 | 88.38 | 89.21 | 90.51 | 87.95 | 92.25 | 67.52 | 83.01 |
| HyperMoE (ours) | 54.67 | 94.38 | 88.68 | 89.63 | 90.52 | 88.43 | 92.64 | 67.01 | 83.25 |
| Table 2 row - NLG/QA/Other | - | - | - | - | - | - | - | - | - |
- HyperMoE は GLUE および SuperGLUE のベンチマークで MoE および MoE-Share を上回り、平均改善がそれぞれ 0.48 点と 0.84 点。
- NLG タスク(XSum, CNNDM, SQuAD, WikiText)で、HyperMoE はベースラインより高い Rouge-2 または Exact Match スコアを達成。
- 埋め込みベースの条件づけとハイパーネットワークの条件づけが性能に寄与することをアブレーションで示し、埋め込みを除去したり条件づけを誤設定すると精度が低下。
- エキスパート数を増やす(base-8, base-16, base-32)と、基準と比較して HyperMoE に一貫した利益が生じる。
- HyperMoE は標準 MoE と比較して約 15% の学習遅延と約 10% の推論遅延を導入するが、追加の HyperExpert コンポーネントのためであり、性能とコストの間で有利なトレードオフを示す。
- selection embeddings はクロスエキスパート情報を効果的に捉え、未選択エキスパート埋め込みが強い条件信号を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。