Skip to main content
QUICK REVIEW

[論文レビュー] Long-tailed Recognition by Routing Diverse Distribution-Aware Experts

Xudong Wang, Long Lian|arXiv (Cornell University)|Oct 5, 2020
Domain Adaptation and Few-Shot Learning参考文献 38被引用数 30
ひとこと要約

RIDEは、共有バックボーンとダイナミックルーティングモジュールを備えたマルチエキスパートモデルを導入し、長尾認識におけるバイアスと分散を低減します。CIFAR100-LT、ImageNet-LT、iNaturalist 2018で5〜7%の利得を達成します。

ABSTRACT

Natural data are often long-tail distributed over semantic classes. Existing recognition methods tackle this imbalanced classification by placing more emphasis on the tail data, through class re-balancing/re-weighting or ensembling over different data groups, resulting in increased tail accuracies but reduced head accuracies. We take a dynamic view of the training data and provide a principled model bias and variance analysis as the training data fluctuates: Existing long-tail classifiers invariably increase the model variance and the head-tail model bias gap remains large, due to more and larger confusion with hard negatives for the tail. We propose a new long-tailed classifier called RoutIng Diverse Experts (RIDE). It reduces the model variance with multiple experts, reduces the model bias with a distribution-aware diversity loss, reduces the computational cost with a dynamic expert routing module. RIDE outperforms the state-of-the-art by 5% to 7% on CIFAR100-LT, ImageNet-LT and iNaturalist 2018 benchmarks. It is also a universal framework that is applicable to various backbone networks, long-tailed algorithms, and training mechanisms for consistent performance gains. Our code is available at: https://github.com/frank-xwang/RIDE-LongTailRecognition.

研究の動機と目的

  • 変動するトレーニングデータ分布の下で、バイアス-分散分析を通じて長尾認識の研究を動機づける。
  • 長尾分類器におけるバイアス(特に尾部のバイアス)と分散の両方を低減する原理的なモデルを提案する。
  • RoutIng Diverse Experts (RIDE)を、共有の初期特徴量、異なる後段エキスパート分岐、およびダイナミックルーターを備えて開発する。
  • RIDEがバックボーン全体に普遍的であり、複数の長尾損失関数とトレーニングスキームと互換性があることを示す。

提案手法

  • 共有された初期層とn個の縮小チャネル後部ブランチを備えたマルチエキスパートアーキテクチャをモデル化する。
  • 各エキスパートごとの分類損失と分布認識多様性損失を組み合わせてエキスパートを訓練し、補完的な決定を促進する。
  • 計算資源を制御するために、必要なときだけ追加のエキスパートを動的に有効化するルータを導入する。
  • 推論時にアクティブなエキスパートのロジットをソフトマックス平均して最終予測を生成する。
  • 性能を向上させるために、より高いエキスパートモデルから自己蒸留を適用する。
  • 頭部と尾部の学習をバランスさせるために、クラス頻度に応じてスケールするクラス別温度機構を用いて、多様性とルーティングを基盤づける。

実験結果

リサーチクエスチョン

  • RQ1トレーニングデータが変動する中で、長尾認識におけるモデルのバイアスと分散はどのように分析できるか。
  • RQ2分布認識の多様性損失を備えたマルチエキスパートアーキテクチャは、過度な計算なしに尾部のバイアスと全体の分散を減らせるか。
  • RQ3多くのショット、中くらいのショット、少数ショットクラスを横断する際に、多様なバックボーンでエキスパートのダイナミックルーティングは精度を維持または向上させるか。
  • RQ4RIDEは、さまざまなアーキテクチャにわたって既存の長尾損失とトレーニングスキームを改善できる普遍的なフレームワークか。
  • RQ5CIFAR100-LT、ImageNet-LT、iNaturalist 2018でのRIDEの実証的な利得は、最先端手法と比較してどれくらいか。

主な発見

  • RIDEはCEおよび既存の長尾手法と比較して、すべてのクラス分割においてモデルの分散を低減します。
  • RIDEは分布認識の多様性損失を介して尾部バイアスを低減し、ヘッド-テールのバイアスギャップを縮小します。
  • RIDEはCIFAR100-LT、ImageNet-LT、iNaturalist 2018でSOTAより5–7%高いTop-1精度を達成します。
  • RIDEはさまざまなバックボーン(ResNet、ResNeXt、Swin Transformer)および損失関数(CE、LDAM、focal等)と互換性があります。
  • ダイナミックルータは必要なときにのみ複数のエキスパートを使用可能にし、計算コストを単一エキスパートと同程度まで削減します。
  • アブレーションは、アーキテクチャ、個別損失、多様性損失、ルーティング、および蒸留がそれぞれ性能に寄与し、全体の設定が最大の利得をもたらすことを示しています。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。