QUICK REVIEW

[論文レビュー] ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation

Shuyang Sun, Weijun Wang|arXiv (Cornell University)|Jun 29, 2023

Mobile Crowdsensing and Crowdsourcing被引用数 7

ひとこと要約

ReMaX は訓練時の緩和（ReMask と ReClass）を導入し、マスク-トランスフォーマーのパンオプティック分割を加速収束と精度向上を実現、推論コストの追加なし。COCO、Cityscapes、ADE20K で効率的モデルの新しい最先端を達成。

ABSTRACT

This paper presents a new mechanism to facilitate the training of mask transformers for efficient panoptic segmentation, democratizing its deployment. We observe that due to its high complexity, the training objective of panoptic segmentation will inevitably lead to much higher false positive penalization. Such unbalanced loss makes the training process of the end-to-end mask-transformer based architectures difficult, especially for efficient models. In this paper, we present ReMaX that adds relaxation to mask predictions and class predictions during training for panoptic segmentation. We demonstrate that via these simple relaxation techniques during training, our model can be consistently improved by a clear margin extbf{without} any extra computational cost on inference. By combining our method with efficient backbones like MobileNetV3-Small, our method achieves new state-of-the-art results for efficient panoptic segmentation on COCO, ADE20K and Cityscapes. Code and pre-trained checkpoints will be available at \url{https://github.com/google-research/deeplab2}.

研究の動機と目的

エンドツーエンドのマスク-トランスフォーマーによるパンオプティック分割における誤検出の不均衡な損失が訓練の不安定さを引き起こす問題を動機づけ、解決する。
訓練時の緩和技術（ReMask と ReClass）を提案し、推論コストに影響を与えず学習を安定化させる。
COCO、Cityscapes、ADE20K の効率的バックボーンで緩和が収束速度と最終精度を改善することを実証する。

提案手法

訓練中の補助的な意味論ヘッドとして ReMask を導入し、意味論予測を生成して意味情報を用いた緩和でパンオプティックマスクを指針付けする。
Hadamard積とシグモイド正規化を用いて、パンオプティック予測と意味論マップを組み合わせて緩和されたパンオプティック出力を計算する。
意味論ヘッドには勾配を停止させ、意味論損失のみで訓練されるようにする。
ReClass を導入し、Ground-truth の意味論マスクとの重なりに基づいて各予測マスクのクラスラベルを緩和因子 eta で制御してソフト化する。
重なりからクラスウェイト y_m を計算し、元のワンホットラベルとブレンドして訓練用の最終ソフト化クラスウェイトを得る。
推論コストを追加せずに分類ヘッドを調整するために ReClass を適用する。
ReMask と ReClass により勾配クリッピングなしで訓練が可能となり、より大きな学習率を使用でき、複数データセットで約3倍の訓練速度改善と PQ の改善を実現する。

実験結果

リサーチクエスチョン

RQ1訓練時の緩和はマスク-トランスフォーマーのパンオプティック分割における高度に不均衡な偽陽性損失を緩和できるか？
RQ2ReMask と ReClass は推論オーバーヘッドを増やすことなく訓練の安定性と収束速度を改善するか？
RQ3提案された緩和は効率的パンオプティック分割のために、異なるバックボーンやデータセット（COCO、Cityscapes、ADE20K）でどう機能するか？

主な発見

Method	Backbone	Resolution	FPS	PQ
Panoptic-DeepLab	MNV3-L	641×641	26.3	30.0
Panoptic-DeepLab	R50	641×641	20.0	35.1
Real-time	R50	800×1333	15.9	37.1
MaskConver	MN-MH	640×640	40.2	37.2
MaskFormer	R50	800×1333	17.6	46.5
YOSO	R50	800×1333	23.6	48.4
YOSO	R50	512×800	45.6	46.4
kMaX-DeepLab	R50	1281×1281	16.3	53.0
ReMaX-T	MNV3-S	641×641	108.7	40.4
ReMaX-S	MNV3-L	641×641	80.9	44.6
ReMaX-M	R50	641×641	51.9	49.1
ReMaX-B	R50	1281×1281	16.3	54.2

ReMaX は勾配クリッピングなしで安定した訓練を可能にし、ベースラインと比べて10倍以上の学習率を許容する。
訓練収束は COCO で約3倍速くなり、 ResNet-50 で 200k イテレーション時に PQ が 54.2 に達する。
MobileNetV3-S/L バックボーンでは、ReMaX は 50k イテレーション時に 4.9–5.2 PQ の改善をもたらし、長いスケジュールでも依然として gains。
COCO val において ReMaX-B は ResNet-50 をバックボーンとして 16.3 FPS で PQ 54.2 を達成し、MaskFormer、YOSO、kMaX-DeepLab などの効率的なベースラインを PQ で上回る。
ReMask は意味論の指針を取り入れて偽陽性を削減し、ReClass は各予測のクラスラベルを重なりと多クラス領域を反映するよう緩和することで、パンオプティック性能の改善に寄与した。
Cityscapes および ADE20K でも ReMaX ベースのモデルは効率と精度の最適なトレードオフを達成し、PQ/mIoU で競争力のある、あるいは優れた結果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。