[論文レビュー] Task-customized Masked AutoEncoder via Mixture of Cluster-conditional Experts
MoCE を提案する、MAE のクラスタリングをガイドする混合専門家拡張として、タスクカスタマイズされた自己 Supervised pre-training により、11 の下流タスクでの転移を改善し、検出/セグメンテーションで最先端の成果を達成。
Masked Autoencoder~(MAE) is a prevailing self-supervised learning method that achieves promising results in model pre-training. However, when the various downstream tasks have data distributions different from the pre-training data, the semantically irrelevant pre-training information might result in negative transfer, impeding MAE's scalability. To address this issue, we propose a novel MAE-based pre-training paradigm, Mixture of Cluster-conditional Experts (MoCE), which can be trained once but provides customized pre-training models for diverse downstream tasks. Different from the mixture of experts (MoE), our MoCE trains each expert only with semantically relevant images by using cluster-conditional gates. Thus, each downstream task can be allocated to its customized model pre-trained with data most similar to the downstream data. Experiments on a collection of 11 downstream tasks show that MoCE outperforms the vanilla MAE by 2.45\% on average. It also obtains new state-of-the-art self-supervised learning results on detection and segmentation.
研究の動機と目的
- 標準的な MAE を他のセマンティクス的に異なる下流タスクへ転移させる際にネガティブ・トランスファーが生じ得ることを実証する。
- 自己教師あり設定における MAE への naïve な TokenMoE の適用の限界を特定する。
- MoCE を導入して semantically に類似した画像クラスタ上でエキスパートを訓練する。
- MoCE が複数の下流タスクとデプロイメントにおいて優れた転移を達成することを示す。
- 効率的推論のためのタスクカスタマイズされた MoCE モデルのデプロイに関する指針を提供する。
提案手法
- 事前学習データを事前学習済み MAE の特徴を用いてクラスタリングし、意味的に一貫したグループを形成する。
- 選択した MLP 層を MoCE ゲートに置換し、画像トークンをクラスタ条件付きエキスパートへルーティングする。
- 各エキスパートを割り当てられたクラスタのデータ上で学習させ、蒸留損失で学習の安定化を図る。
- デプロイ時には下流タスクに最も意味的に関連するエキスパートをクラスタリングモジュールを用いて選択する。
- 自信を持ったゲートルーティングを促す不均衡/正則化損失を導入する。
実験結果
リサーチクエスチョン
- RQ1MAE は意味的に多様な下流タスク間でネガティブ・トランスファーに苦しむか。
- RQ2MAE への TokenMoE の naively な適用は転移性能を改善するか、劣化させるか。
- RQ3クラスタ条件付きルーティングを用いた MoCE は、従来の MAE および TokenMoE よりもタスク固有の事前学習を実現するか。
- RQ4MoCE は検出・セグメンテーションを含む広範な下流タスクでどのような性能を示すか。
主な発見
| Aircraft | Caltech | Cars | C10 | C100 | DTD | Flowers | Food | Pets | SUN | VOC | Avg. |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 72.71 | 91.24 | 84.47 | 96.15 | 77.33 | 75.05 | 96.25 | 80.49 | 92.78 | 62.46 | 85.02 | 83.09 |
| 70.51 | 89.70 | 81.40 | 95.18 | 76.44 | 73.67 | 95.09 | 77.45 | 90.71 | 61.12 | 80.15 | 81.04 |
| 75.77 | 89.73 | 86.65 | 95.31 | 83.60 | 73.62 | 95.53 | 84.77 | 91.25 | 64.64 | 83.51 | 84.03 |
| 76.57 | 90.04 | 86.95 | 96.92 | 81.42 | 73.09 | 96.14 | 82.90 | 92.65 | 64.40 | 85.37 | 84.22 |
| 78.73 | 90.61 | 88.56 | 97.79 | 84.68 | 74.04 | 96.94 | 86.24 | 93.07 | 65.05 | 85.26 | 85.54 |
- MoCE は 11 件の下流タスクで MAE* に対して平均で最大 2.45% の Top-1 精度向上を達成。
- MoCE は検出およびセグメンテーションのベンチマークで自己教師付きの最先端結果を示す。
- TokenMoE は MAE を改善しないか、意味論的に無関係なルーティングのため劣後する可能性がある。
- MoCE のクラスタ条件付きエキスパートは、意味的に一貫した特殊化(例: 服、鳥、犬)を学習する。
- 単一のアクティブな MoCE エキスパートでデプロイすると、推論時のパラメータを半減し、効率を改善できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。