Skip to main content
QUICK REVIEW

[논문 리뷰] RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer

Jian Wang, Chenhui Gou|arXiv (Cornell University)|2022. 10. 13.
Advanced Neural Network Applications인용 수 76
한 줄 요약

RTFormer는 GPU 친화적 주의(attention)와 해상도 간 주의 교차(cross-resolution attention)를 갖춘 듀얼 해상도 트랜스포머를 도입하여 Cityscapes, CamVid, ADE20K, COCOStuff에서 높은 FPS로 실시간 시맨틱 세분화 정확도에서 최첨단 성능을 달성합니다.

ABSTRACT

Recently, transformer-based networks have shown impressive results in semantic segmentation. Yet for real-time semantic segmentation, pure CNN-based approaches still dominate in this field, due to the time-consuming computation mechanism of transformer. We propose RTFormer, an efficient dual-resolution transformer for real-time semantic segmenation, which achieves better trade-off between performance and efficiency than CNN-based models. To achieve high inference efficiency on GPU-like devices, our RTFormer leverages GPU-Friendly Attention with linear complexity and discards the multi-head mechanism. Besides, we find that cross-resolution attention is more efficient to gather global context information for high-resolution branch by spreading the high level knowledge learned from low-resolution branch. Extensive experiments on mainstream benchmarks demonstrate the effectiveness of our proposed RTFormer, it achieves state-of-the-art on Cityscapes, CamVid and COCOStuff, and shows promising results on ADE20K. Code is available at PaddleSeg: https://github.com/PaddlePaddle/PaddleSeg.

연구 동기 및 목표

  • 트랜스포머 기반 네트워크를 이용한 실시간 시맨틱 세분화를 동기화하고 GPU 친화적 주의 및 효율성 이슈를 다루려 한다.
  • 저전력 및 추론 속도를 균형 있게 맞추기 위해 RTFormer 블록과 듀얼 해상도 아키텍처를 제안한다.
  • Cityscapes, CamVid, ADE20K, COCOStuff 전반에서 상호 비교 가능한 속도-정확도 트레이드를 보여주는 경험적 결과를 제시한다.

제안 방법

  • GPU 친화적 주의(GFA)에서 파생된 외부 주의(attention)와 그룹화된 이중 정규화를 사용한 저해상도 지배(RI) 가지를 포함한 RTFormer 블록을 도입한다.
  • 고해상도 가지에서 저해상도 가지의 글로벌 컨텍스트를 주입하기 위해 Cross-resolution Attention을 적용한다.
  • 저해상도와 고해상도 가지에서 정보를 융합하기 위한 계단식 레이아웃을 사용하고, 특징 차원 확장 없이 두 개의 3x3 컨볼루션 기반 FFN을 활용한다.
  • RTFormer를 초기 컨볼루션 스템과 마지막 두 스테이지를 RTFormer 블록으로 구성하고 DAPPM 기반의 세그먼테이션 헤드를 추가하여 구성한다.
  • ImageNet에서 사전학습하고, 표준 증강 및 학습 일정에 따라 세그먼테이션 데이터셋에서 미세조정한다.

실험 결과

연구 질문

  • RQ1GPU 친화적 주의가 적용된 듀얼 해상도 트랜스포머가 실시간 추론을 가능하게 하면서 시맨틱 세분화 정확도를 희생하지 않는가?
  • RQ2교차 해상도 주의가 저해상도 가지의 높은 수준의 글로벌 컨텍스트를 고해상도 특징으로 효과적으로 전달하는가?
  • RQ3다양한 주의 및 FFN 설계가 실시간 세분화에서 속도(FPS)와 정확도(mIoU)에 어떤 영향을 미치는가?
  • RQ4RTFormer가 표준 실시간 벤치마크(Cityscapes, CamVid)와 일반화된 장면(ADE20K, COCOStuff)에서 CNN 기반 및 다른 트랜스포머 기반 방법과 비교하여 어떤 성능을 보이는가?

주요 결과

모델인코더#ParamsGPUCityscapes FPSCityscapes mIoUCamVid FPSCamVid mIoU
RTFormer-Slim (Ours)-4.8MRTX 2080Ti110.076.3190.781.4
RTFormer-Base (Ours)-16.8MRTX 2080Ti39.179.394.082.5
ICNet--TitanX M30.367.727.867.1
DFANet AXception A7.8MTitanX100.0---
DFANet BXception B4.8MTitanX120.0---
CAS--TitanX108.071.6169.071.2
GAS--TitanX108.472.4153.172.8
DDRNet-23-Slim-5.6MRTX 2080Ti----
DDRNet-23-20.1MRTX 2080Ti----
  • RTFormer-Slim은 Cityscapes에서 110.0 FPS로 76.3% mIoU를 달성하며 실시간 균형을 달성합니다.
  • RTFormer-Base는 Cityscapes에서 39.1 FPS로 79.3% mIoU를 달성하여 당시 실시간 방법들 중 최첨단에 위치했습니다.
  • CamVid에서 RTFormer-Slim은 190.7 FPS로 81.4% mIoU를 달성하고 파라미터는 4.8M입니다.
  • ADE20K에서 RTFormer-Base는 71.4 FPS로 42.1% mIoU를 달성합니다.
  • COCOStuff에서 RTFormer-Base는 143.3 FPS로 35.3% mIoU를 달성합니다.
  • 적용 실험은 GPU 친화적 주의가 다중-head 외부 주의 및 자체 주의 대비 속도-정확도 트레이드오프에서 더 나은 성능을 보임을 보여주고, 교차 해상도 주의가 추가적인 이득을 제공하되 FPS 감소는 경미함을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.