[論文レビュー] Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs
条件付き混合専門家(Conditional Mixture-of-Experts, Conditional MoEs)を導入して一般istモデルのタスク干渉を緩和し、 Uni-Perceiverへ統合、プロンプト調整を用いた1%の下流データで最先端の結果を示し、ゼロショット一般化を維持。
To build an artificial neural network like the biological intelligence system, recent works have unified numerous tasks into a generalist model, which can process various tasks with shared parameters and do not have any task-specific modules. While generalist models achieve promising results on various benchmarks, they have performance degradation on some tasks compared with task-specialized models. In this work, we find that interference among different tasks and modalities is the main factor to this phenomenon. To mitigate such interference, we introduce the Conditional Mixture-of-Experts (Conditional MoEs) to generalist models. Routing strategies under different levels of conditions are proposed to take both the training/inference cost and generalization ability into account. By incorporating the proposed Conditional MoEs, the recently proposed generalist model Uni-Perceiver can effectively mitigate the interference across tasks and modalities, and achieves state-of-the-art results on a series of downstream tasks via prompt tuning on 1% of downstream data. Moreover, the introduction of Conditional MoEs still holds the generalization ability of generalist models to conduct zero-shot inference on new tasks, e.g., video-text retrieval and video caption. Code and pre-trained generalist models shall be released.
研究の動機と目的
- 一般istマルチタスクモデルにおけるタスク干渉の問題と、それがパフォーマンスに与える影響を説明する。
- 干渉を緩和しつつ一般化を維持・向上させるための異なるルーティング戦略を持つConditional MoEsを提案する。
- Conditional MoEsを搭載した Uni-Perceiver が制限された下流データでも高い性能を発揮し、未知タスクへのゼロショット一般化をサポートすることを示す。
提案手法
- 勾配方向指標を用いたタスク干渉の解析により、タスク間のクロス効果を定量化する。
- トークンレベル、コンテキストレベル、モダリティレベル、タスクレベル、属性ベース条件付けを跨ぐルーティング戦略を持つConditional MoEsを定義する。
- Uni-Perceiverの自己注意とFFNブロックの線形射影をConditional-MoEレイヤに置換する。
- データ・タスク一般化を可能にする8次元のトークン属性埋め込みを導入する。
- データ依存型ルーティングとデータ非依存型ルーティングのトレーニング/推論コストと一般化の観点を比較する。
- 1%データでのプロンプト調整を含む大規模事前学習と下流評価を実施する。
実験結果
リサーチクエスチョン
- RQ1異なるタスク間・モダリティ間でパラメータを共有する際、クロスタスク干渉は一般istモデルの性能にどのように影響するのか?
- RQ2Conditional MoEsは干渉を低減しつつ未知タスクへの一般化を維持・向上できるか?
- RQ3効率と精度のトレードオフを最も良くするルーティング戦略(トークン、コンテキスト、モダリティ、タスク、属性)はどれか?
- RQ4Conditional MoEsを用いた一般istモデルで、プロンプト調整とデータ効率は完全な教師ありファインチューニングと比較してどうなるか?
- RQ5Conditional MoEsを備えたモデルはビデオテキスト検索やビデオキャプショニングのような新規タスクに対してゼロショット能力を維持できるか?
主な発見
| Model | Task-specific parameterization | Training time | Inference time | ImageNet-1k (train acc) | COCO Caption (B@4 検証) | MLM (train acc) | MLM (検証 perplexity) |
|---|---|---|---|---|---|---|---|
| Uni-Perceiver-Ti | 1.0× | 1.0× | 47.3 | 68.3 | 49.2 | 5.86 | |
| Uni-Perceiver-Ti + Conditional MoEs (token) | 1.8× | 2.2× | 53.1 | 72.7 | 52.9 | 4.96 | |
| Uni-Perceiver-Ti + Conditional MoEs (context) | 2.2× | 2.6× | 52.5 | 73.1 | 52.8 | 4.86 | |
| Uni-Perceiver-Ti + Conditional MoEs (modality) | 1.4× | 1.0× | 51.7 | 72.6 | 52.1 | 5.06 | |
| Uni-Perceiver-Ti + Conditional MoEs (task) | 1.4× | 1.0× | 52.9 | 73.2 | 52.7 | 4.56 | |
| Uni-Perceiver-Ti + Conditional MoEs (attribute) | 1.4× | 1.0× | 52.8 | 73.3 | 53.1 | 4.56 |
- Conditional MoEsはタスク干渉を緩和し、完全に共有された Uni-Perceiver のベースラインよりも性能を向上させる。
- ルーティングの変種のうち、属性MoE(8ビットのトークン属性埋め込みを用いる)が、効率と一般化の点で強力な性能を提供する。
- データ非依存のMoE変種(モダリティ、タスク、属性)は高効率を達成でき、再パラメータ化により単一射影へ統合可能。一方、データ依存型はトレーニング/推論コストが高い。
- 1%の下流データでのプロンプト調整により、Uni-Perceiver-MoEsは大規模データと計算を用いたSOTAと競合する結果を達成する。
- Uni-Perceiver-MoEsはビデオキャプションやビデオテキスト検索などの新規タスクに対してゼロショット一般化を維持し、GLUE系ベンチマークの性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。