[論文レビュー] Distribution Alignment: A Unified Framework for Long-tail Visual Recognition
本論文では、分布整合性を用いて分類器出力をキャリブレーションすることで、性能を向上させる統合的2段階フレームワークであるDisAlignを提案する。適応的キャリブレーション関数と一般化再重み付けを用い、予測値をバランスの取れたクラス事前分布に一致させる。ImageNet-LT、iNaturalist、ADE20k、LVISといった長尾ベンチマークにおいて、画像分類、セマンティックセグメンテーション、オブジェクト検出の分野で最先端の結果を達成している。
Despite the recent success of deep neural networks, it remains challenging to effectively model the long-tail class distribution in visual recognition tasks. To address this problem, we first investigate the performance bottleneck of the two-stage learning framework via ablative study. Motivated by our discovery, we propose a unified distribution alignment strategy for long-tail visual recognition. Specifically, we develop an adaptive calibration function that enables us to adjust the classification scores for each data point. We then introduce a generalized re-weight method in the two-stage learning to balance the class prior, which provides a flexible and unified solution to diverse scenarios in visual recognition tasks. We validate our method by extensive experiments on four tasks, including image classification, semantic segmentation, object detection, and instance segmentation. Our approach achieves the state-of-the-art results across all four recognition tasks with a simple and unified framework. The code and models will be made publicly available at: https://github.com/Megvii-BaseDetection/DisAlign
研究の動機と目的
- 2段階学習フレームワークにおける偏った意思決定境界が引き起こす長尾視覚認識の性能ギャップを是正する。
- インバランスなデータセットで学習されたディープニューラルネットワークにおける尾部クラスの性能が低い原因を特定する。
- 広範なハイパーパrameterチューニングを必要としない、統合的かつ原理的アプローチによる分類スコアの再キャリブレーション手法を開発する。
- 長尾データ分布下でも、画像分類、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションといった多様な視覚認識タスクへの効果的適応を可能にする。
- クラス事前分布を組み込んだ柔軟で一般化された再重み付け戦略を提供し、ヘッド、ボディ、テイルクラス間の予測をバランスさせる。
提案手法
- 2段階学習フレームワークを提案:まず不均衡データ上で表現バックボーンを事前学習し、次に分布整合性を用いて分類器ヘッドをファインチューニングする。
- 入力に依存する学習可能な大きさとマージンを分類スコアに適用する適応的キャリブレーション関数を設計し、信頼度に配慮した分布整合性を実現する。
- バランスの取れたクラス事前分布をモデル化し、クラス頻度に応じて損失重みを動的に調整する一般化再重み付け機構を導入する。
- ヘッドクラスに偏るバイアスを低減させるために、予測クラス分布をバランスの取れた参照分布に一致させる。
- さまざまなモデルやバックボーンアーキテクチャに適用可能な軽量でプラグイン型の分布整合性モジュールを統合する。
- 一部の実験では、一般化を向上させ、レアクラスでの過学習を軽減するため、コサイン分類器ヘッドを用いる。

実験結果
リサーチクエスチョン
- RQ1優れた特徴表現が得られているにもかかわらず、2段階長尾認識における理想モデルとベースラインモデルの性能ギャップの原因は何か?
- RQ2タスク固有のチューニングなしで、統合的かつ原理的戦略による分布整合性が、多様な視覚認識タスクで性能向上をもたらすか?
- RQ3分類スコアの適応的キャリブレーションが、長尾設定における予測バイアスにどのように影響するか?
- RQ4クラス事前分布に基づく一般化再重み付けは、テイルクラスおよびボディクラスの一般化をどの程度向上させるか?
- RQ5提案手法は、レアクラスおよび長尾カテゴリの正確性を著しく向上させる一方で、ヘッドクラスの性能を維持できるか?
主な発見
- ImageNet-LTでは、ResNet-50を用いてトップ1精度32.4%を達成し、前回のSOTAを2.5ポイント上回った。
- iNaturalistでは、トップ1精度41.7%を達成し、ベースラインから3.1%の向上を示し、特にテイルクラスで顕著な改善を示した。
- ADE20kのセマンティックセグメンテーションでは、ResNeSt-101を用いてmIoUを2.3ポイント向上(47.8に)、新たなSOTAを樹立した。
- オブジェクト検出のLVISでは、ResNeXt-101を用いてAPを33.7%に達成し、ベースラインから3.0%の向上を示し、希少カテゴリで顕著な改善を示した。
- インスタンスセグメンテーションのLVISでは、マスクAPを27.3%から29.7%に向上させ、テイルクラスで強い改善を示した。
- アブレーションスタディにより、適応的キャリブレーションおよび一般化再重み付けのコンponentsが不可欠であることが確認され、両者とも性能向上に顕著な寄与を示した。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。