QUICK REVIEW

[논문 리뷰] ReMaX: Relaxing for Better Training on Efficient Panoptic Segmentation

Shuyang Sun, Weijun Wang|arXiv (Cornell University)|2023. 06. 29.

Mobile Crowdsensing and Crowdsourcing인용 수 7

한 줄 요약

ReMaX는 마스크-트랜스포머 팬토픽 분할의 학습 시 Relaxation(ReMask 및 ReClass)을 도입하여 추가 추론 비용 없이 더 빠른 수렴과 향상된 정확도를 달성합니다. COCO, Cityscapes, ADE20K에서 효율적 모델들 중 새로운 최적 성능을 달성합니다.

ABSTRACT

This paper presents a new mechanism to facilitate the training of mask transformers for efficient panoptic segmentation, democratizing its deployment. We observe that due to its high complexity, the training objective of panoptic segmentation will inevitably lead to much higher false positive penalization. Such unbalanced loss makes the training process of the end-to-end mask-transformer based architectures difficult, especially for efficient models. In this paper, we present ReMaX that adds relaxation to mask predictions and class predictions during training for panoptic segmentation. We demonstrate that via these simple relaxation techniques during training, our model can be consistently improved by a clear margin extbf{without} any extra computational cost on inference. By combining our method with efficient backbones like MobileNetV3-Small, our method achieves new state-of-the-art results for efficient panoptic segmentation on COCO, ADE20K and Cityscapes. Code and pre-trained checkpoints will be available at \url{https://github.com/google-research/deeplab2}.

연구 동기 및 목표

엔드투엔드 마스크-트랜스포머 팬토픽 분할에서 잘 불균형한 잘못 양성 손실로 인한 학습 불안정을 동기화하고 해결한다.
추론 비용에 영향을 주지 않으면서 학습 시 Relaxation 기술(ReMask와 ReClass)을 제안한다.
COCO, Cityscapes, ADE20K에서 효율적 백본 전반에 걸친 수렴 속도와 최종 정확도 향상을 보여준다.

제안 방법

학습 중 보조 의미 헤드인 ReMask를 도입하여 의미 예측을 생성하고 의미 정보를 반영한 Relaxation을 통해 팬토픽 마스크를 안내한다.
Hadamard 곱과 시그모이드 정규화를 통해 팬토픽 예측과 의미 맵을 결합하여 Relaxed 팬토픽 출력을 계산한다.
시맨틱 헤드에 stop-gradient를 적용하여 시맨틱 손실만으로 학습되도록 한다.
ReClass를 도입하여 ground-truth 시맨틱 마스크와의 중첩에 따라 예측 마스크의 각 클래스 라벨을 부드럽게 조정한다(완화 인자 eta로 제어).
중첩으로부터 얻은 클래스로 가중치를 y_m를 계산하고 이를 원래의 원-핫 라벨과 혼합하여 학습에 사용할 최종 부드러운 클래스 가중치를 얻는다.
추론 비용을 추가하지 않고 분류 헤드를 조정하기 위해 ReClass를 적용한다.
ReMask와 ReClass가 그래디언트 클리핑 없이 학습 가능하게 하고 더 큰 학습률을 허용하며, 여러 데이터셋에서 PQ를 개선하며 약 3배의 속도 향상을 제공합니다.

실험 결과

연구 질문

RQ1학습 시 Relaxation이 마스크-트랜스포머 팬토픽 분할에서 매우 불균형한 false positive 손실을 완화할 수 있을까?
RQ2ReMask와 ReClass가 추론 오버헤드 없이 학습 안정성과 수렴 속도를 향상시킬 수 있을까?
RQ3제안된 Relaxations가 효율적 팬토픽 분할에 대해 다양한 백본과 데이터셋(COCO, Cityscapes, ADE20K)에서 어떻게 작동하는가?

주요 결과

ReMaX는 그래디언트 클리핑 없이 안정적인 학습을 가능하게 하고 기본값 대비 10배가 넘는 더 큰 학습률을 허용한다.
COCO에서 짧은 일정과 긴 일정 모두에서 수렴이 약 3배 빨라지며, ResNet-50은 200k 반복에서 PQ 54.2에 도달한다.
MobileNetV3-S/L 백본에서 ReMaX는 50k 반복에서 4.9–5.2 PQ 증가를 보이고, 더 긴 일정에서도 여전히 이득을 얻는다.
COCO 검증에서 ReMaX-B는 백본으로 ResNet-50을 사용해 16.3 FPS에서 PQ 54.2를 달성하며 MaskFormer, YOSO, kMaX-DeepLab 등과 경쟁하는 PQ를 달성한다.
ReMask는 의미 지침을 통합하여 오탐을 줄이고; ReClass는 예측마다의 클래스 라벨을 중첩과 다중 클래스 영역을 반영하도록 완화시켜 팬토픽 성능 향상에 기여한다.
Cityscapes와 ADE20K 전반에서 ReMaX 기반 모델은 경쟁력 있거나 우수한 PQ/mIoU 결과로 효율성과 정확도의 최적 무역을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.