QUICK REVIEW

[論文レビュー] Efficiently Identifying Task Groupings for Multi-Task Learning

Christopher Fifty, Ehsan Amid|arXiv (Cornell University)|Sep 10, 2021

Domain Adaptation and Few-Shot Learning参考文献 52被引用数 29

ひとこと要約

TAGはすべてのタスクを1回の実行で学習させ、勾配の影響を介してタスク間のアフィニティを測定し、次にアフィニティを最大化するタスク群を構築することで、より高速で高性能なマルチタスクを実現する。

ABSTRACT

Multi-task learning can leverage information learned by one task to benefit the training of other tasks. Despite this capacity, naively training all tasks together in one model often degrades performance, and exhaustively searching through combinations of task groupings can be prohibitively expensive. As a result, efficiently identifying the tasks that would benefit from training together remains a challenging design question without a clear solution. In this paper, we suggest an approach to select which tasks should train together in multi-task learning models. Our method determines task groupings in a single run by training all tasks together and quantifying the effect to which one task's gradient would affect another task's loss. On the large-scale Taskonomy computer vision dataset, we find this method can decrease test loss by 10.0% compared to simply training all tasks together while operating 11.6 times faster than a state-of-the-art task grouping method.

研究の動機と目的

マルチタスク学習におけるネガティブ転移や過度な探索コストを避けるための効率的なタスクグルーペーニングの必要性を動機づける。
勾配ベースのlookahead lossesを介してタスク間のアフィニティを1回の実行で定量化する方法を提案する。
推論制約の下で各タスクのアフィニティを最大化するマルチタスクグループを形成するネットワーク選択アルゴリズムを開発する。
大規模ビジョンデータセット（CelebA, Taskonomy）でのスケーラビリティと効率性を示す。
穏やかな凸性仮定の下でアフィニティベースのグルーピングが他の手法よりも優れる理由を理論的に示す。

提案手法

すべてのタスクを同時に訓練して共有パラメータの更新を得る。
タスクiが共有パラメータを更新したときにタスクjの相対的進捗として、タスク間アフィニティZ-i→jを定義する（lookahead loss ratio）。
訓練中の1ステップあたりのアフィニティを平均して訓練レベルのスコアhat{Z}_{i→j}を得る。
各 served task に対してアフィニティを合計して最大化するように、k個のマルチタスクネットワークにタスクをグルーピングする（k ≤ メモリ予算b）。
α-強凸性とβ-強さ状滑性の下で、特定の条件のもとで、より高いアフィニティが、より高いアフィニティのタスクとグルーピングした場合の主要タスクの損失を低くすることを示す理論的分析を提供する。
PCGradのような追加のトレーニング拡張を伴う場合と伴わない場合で、基準のMTL、STL、ランダムグルーピング、コサイン類似度ベースのグルーピング、およびHOAとを比較する。

実験結果

リサーチクエスチョン

RQ1単一のトレーニング実行中に測定されたタスク間アフィニティが、有益なタスクグルーピングの特定と整合するか？
RQ2グルーピング決定に対して、各ステップのアフィニティ測定は、各エポックや集計測定より効果的か？
RQ3TAGは大規模ビジョンベンチマーク上で、すべてのタスクを jointly 学習、単一タスクモデル、既存のグルーピング手法と比較してどのように性能を発揮するか？
RQ4識別されたグループは、推論時のメモリ/レイテンシ予算が変動しても有効性を保つか？
RQ5アフィニティベースのアプローチは、トレーニング時の拡張でさらに性能を改善できるか？

主な発見

Taskonomy で全タスクを一括学習するよりも、テスト損失を最大で10.0%低減する。
TAG は、ベンチマークの HOA に比べて約11.6x高速に動作する。
CelebA では、TAG は MTL、UW、GN、RG を上回り、2分割・3分割・4分割で一貫した利益を示し、PCGrad でさらに向上可能。
Taskonomy では、TAG は一貫して MTL（10.0%）、GN（7.7%）、STL（1.5%）、RG（9.5%）を上回る。
TAG は HOA より大幅に計算効率が高く、報告された実験で例として22x速い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。