QUICK REVIEW

[논문 리뷰] RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer

Jian Wang, Chenhui Gou|arXiv (Cornell University)|2022. 10. 13.

Advanced Neural Network Applications인용 수 76

한 줄 요약

RTFormer는 GPU 친화적 주의(attention)와 해상도 간 주의 교차(cross-resolution attention)를 갖춘 듀얼 해상도 트랜스포머를 도입하여 Cityscapes, CamVid, ADE20K, COCOStuff에서 높은 FPS로 실시간 시맨틱 세분화 정확도에서 최첨단 성능을 달성합니다.

ABSTRACT

Recently, transformer-based networks have shown impressive results in semantic segmentation. Yet for real-time semantic segmentation, pure CNN-based approaches still dominate in this field, due to the time-consuming computation mechanism of transformer. We propose RTFormer, an efficient dual-resolution transformer for real-time semantic segmenation, which achieves better trade-off between performance and efficiency than CNN-based models. To achieve high inference efficiency on GPU-like devices, our RTFormer leverages GPU-Friendly Attention with linear complexity and discards the multi-head mechanism. Besides, we find that cross-resolution attention is more efficient to gather global context information for high-resolution branch by spreading the high level knowledge learned from low-resolution branch. Extensive experiments on mainstream benchmarks demonstrate the effectiveness of our proposed RTFormer, it achieves state-of-the-art on Cityscapes, CamVid and COCOStuff, and shows promising results on ADE20K. Code is available at PaddleSeg: https://github.com/PaddlePaddle/PaddleSeg.

연구 동기 및 목표

트랜스포머 기반 네트워크를 이용한 실시간 시맨틱 세분화를 동기화하고 GPU 친화적 주의 및 효율성 이슈를 다루려 한다.
저전력 및 추론 속도를 균형 있게 맞추기 위해 RTFormer 블록과 듀얼 해상도 아키텍처를 제안한다.
Cityscapes, CamVid, ADE20K, COCOStuff 전반에서 상호 비교 가능한 속도-정확도 트레이드를 보여주는 경험적 결과를 제시한다.

제안 방법

GPU 친화적 주의(GFA)에서 파생된 외부 주의(attention)와 그룹화된 이중 정규화를 사용한 저해상도 지배(RI) 가지를 포함한 RTFormer 블록을 도입한다.
고해상도 가지에서 저해상도 가지의 글로벌 컨텍스트를 주입하기 위해 Cross-resolution Attention을 적용한다.
저해상도와 고해상도 가지에서 정보를 융합하기 위한 계단식 레이아웃을 사용하고, 특징 차원 확장 없이 두 개의 3x3 컨볼루션 기반 FFN을 활용한다.
RTFormer를 초기 컨볼루션 스템과 마지막 두 스테이지를 RTFormer 블록으로 구성하고 DAPPM 기반의 세그먼테이션 헤드를 추가하여 구성한다.
ImageNet에서 사전학습하고, 표준 증강 및 학습 일정에 따라 세그먼테이션 데이터셋에서 미세조정한다.

실험 결과

연구 질문

RQ1GPU 친화적 주의가 적용된 듀얼 해상도 트랜스포머가 실시간 추론을 가능하게 하면서 시맨틱 세분화 정확도를 희생하지 않는가?
RQ2교차 해상도 주의가 저해상도 가지의 높은 수준의 글로벌 컨텍스트를 고해상도 특징으로 효과적으로 전달하는가?
RQ3다양한 주의 및 FFN 설계가 실시간 세분화에서 속도(FPS)와 정확도(mIoU)에 어떤 영향을 미치는가?
RQ4RTFormer가 표준 실시간 벤치마크(Cityscapes, CamVid)와 일반화된 장면(ADE20K, COCOStuff)에서 CNN 기반 및 다른 트랜스포머 기반 방법과 비교하여 어떤 성능을 보이는가?

주요 결과

모델	인코더	#Params	GPU	Cityscapes FPS	Cityscapes mIoU	CamVid FPS	CamVid mIoU
RTFormer-Slim (Ours)	-	4.8M	RTX 2080Ti	110.0	76.3	190.7	81.4
RTFormer-Base (Ours)	-	16.8M	RTX 2080Ti	39.1	79.3	94.0	82.5
ICNet	-	-	TitanX M	30.3	67.7	27.8	67.1
DFANet A	Xception A	7.8M	TitanX	100.0	-	-	-
DFANet B	Xception B	4.8M	TitanX	120.0	-	-	-
CAS	-	-	TitanX	108.0	71.6	169.0	71.2
GAS	-	-	TitanX	108.4	72.4	153.1	72.8
DDRNet-23-Slim	-	5.6M	RTX 2080Ti	-	-	-	-
DDRNet-23	-	20.1M	RTX 2080Ti	-	-	-	-

RTFormer-Slim은 Cityscapes에서 110.0 FPS로 76.3% mIoU를 달성하며 실시간 균형을 달성합니다.
RTFormer-Base는 Cityscapes에서 39.1 FPS로 79.3% mIoU를 달성하여 당시 실시간 방법들 중 최첨단에 위치했습니다.
CamVid에서 RTFormer-Slim은 190.7 FPS로 81.4% mIoU를 달성하고 파라미터는 4.8M입니다.
ADE20K에서 RTFormer-Base는 71.4 FPS로 42.1% mIoU를 달성합니다.
COCOStuff에서 RTFormer-Base는 143.3 FPS로 35.3% mIoU를 달성합니다.
적용 실험은 GPU 친화적 주의가 다중-head 외부 주의 및 자체 주의 대비 속도-정확도 트레이드오프에서 더 나은 성능을 보임을 보여주고, 교차 해상도 주의가 추가적인 이득을 제공하되 FPS 감소는 경미함을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.