Skip to main content
QUICK REVIEW

[論文レビュー] Scalable Transfer Learning with Expert Models

Joan Puigcerver, Carlos Riquelme|arXiv (Cornell University)|Sep 28, 2020
Domain Adaptation and Few-Shot Learning参考文献 71被引用数 26
ひとこと要約

本論文では、JFT や ImageNet21k などの大規模データセットの意味的に構造化されたサブセットで事前学習されたエキスパートモデルを用いたスケーラブルな転移学習フレームワークを提案する。ダウンストリームタスクの特徴量に対してkNNベースのパフォーマンスプロキシを用いて最も関連性の高いエキスパートを選択することで、競合手法と比較して1タスクあたり500–1000倍の高速化を達成し、19の多様な視覚タスクにわたるVTAB-1kで平均3.6%の精度向上を実現した。さらに、残差アダプタを用いることで、すべてのエキスパートを1つのモデルに圧縮可能である。

ABSTRACT

Transfer of pre-trained representations can improve sample efficiency and reduce computational requirements for new tasks. However, representations used for transfer are usually generic, and are not tailored to a particular distribution of downstream tasks. We explore the use of expert representations for transfer with a simple, yet effective, strategy. We train a diverse set of experts by exploiting existing label structures, and use cheap-to-compute performance proxies to select the relevant expert for each target task. This strategy scales the process of transferring to new tasks, since it does not revisit the pre-training data during transfer. Accordingly, it requires little extra compute per target task, and results in a speed-up of 2-3 orders of magnitude compared to competing approaches. Further, we provide an adapter-based architecture able to compress many experts into a single model. We evaluate our approach on two different data sources and demonstrate that it outperforms baselines on over 20 diverse vision tasks in both cases.

研究の動機と目的

  • 一般化された事前学習モデルにおける非効率性と特化の欠如を是正すること。
  • ソースデータの再処理を伴わずに、新しい視覚タスクへの高速かつスケーラブルな転移を可能にすること。
  • 意味的に構造化されたエキスパートを活用することで、多様なダウンストリームタスクにおける性能向上を図ること。
  • 残差アダプタを用いて数百のエキスパートを1つのモデルに圧縮し、実用的なデプロイメントを可能にすること。

提案手法

  • JFT や ImageNet21k などの完全な上流データセット上で1つのベースラインモデルを事前学習する。
  • ベースラインモデルを初期化として用い、上流データの意味的サブセット上で複数の異種エキスパートを学習する。
  • 各ダウンストリームタスクにおいて、すべてのエキスパートの特徴量を計算し、kNNを用いてターゲットタスクにおけるパフォーマンスを予測し、最も優れたパフォーマンスを示すエキスパートを選択する。
  • ソースデータの再学習を回避するため、選択されたエキスパートのヘッドのみをダウンストリームデータでファインチューニングする。
  • すべてのエキスパートを1つのモデルに圧縮するために残差アダプタを用いる。これにより、完全なエキスパートのロードなしで推論が可能になる。
  • 各タスクごとにkNNベースのプロキシ選択によるエキスパートルーティングを実施し、ターゲットタスクあたりの計算コストを最小限に抑える。

実験結果

リサーチクエスチョン

  • RQ1意味的に意味のあるサブセットで学習されたエキスパートモデルは、多様なダウンストリームタスクにおける転移学習性能を向上させることができるか?
  • RQ2表現の上で安価なkNNプロキシを用いてエキスパートを選択することで、一般化されたファインチューニングに比べてより優れたダウンストリームパフォーマンスが得られるか?
  • RQ3エキスパートベースの転移における計算コストを、ソースデータの再処理を回避することで、タスクあたりほぼゼロにまで削減できるか?
  • RQ4残差アダプタを用いて1つのモデルに数百のエキスパートを圧縮した場合、性能の著しい低下を伴わずに実現できるか?

主な発見

  • 本手法は、ResNet50を用いてVTAB-1kベンチマークで最先端の手法を平均3.6%上回る精度向上を達成した。
  • ドメイン適応的転移などの競合手法と比較して、タスクごとの推論コストが500–1000倍高速化された。
  • ラベル階層のサブセットで学習された意味的エキスパートは、自然な視覚タスクにおいてランダムエキスパートよりも2.7–4.7%優れた性能を示し、構造化された事前学習の価値を実証した。
  • アダプタベースのエキスパートは、完全なエキスパートモデルに近い性能を達成しており、すべてのエキスパートを1つのモデルに圧縮する際に顕著な精度低下を伴わなかった。
  • 本手法は、VTABの全タスクグループ(自然、特化型、構造的)においてベースラインモデルを上回った。
  • 実験の結果、ランダムエキスパートはベースラインと同等の性能を示したため、性能向上はモデル多様性そのものではなく、意味的構造の有効性に起因することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。