QUICK REVIEW

[논문 리뷰] Fully Transformer Networks for Semantic Image Segmentation

Sitong Wu, Tianyi Wu|arXiv (Cornell University)|2021. 06. 08.

Advanced Neural Network Applications참고 문헌 60인용 수 32

한 줄 요약

이 논문은 Pyramid Group Transformer 인코더(PGT)와 Feature Pyramid Transformer 디코더(FPT)를 활용하여 CNN 없이도 최첨단의 의미 분할을 달성하는 Fully Transformer Networks(FTN)를 제시합니다. 이는 PASCAL Context, ADE20K, COCO-Stuff, CelebAMask-HQ에서 확인됩니다.

ABSTRACT

Transformers have shown impressive performance in various natural language processing and computer vision tasks, due to the capability of modeling long-range dependencies. Recent progress has demonstrated that combining such Transformers with CNN-based semantic image segmentation models is very promising. However, it is not well studied yet on how well a pure Transformer based approach can achieve for image segmentation. In this work, we explore a novel framework for semantic image segmentation, which is encoder-decoder based Fully Transformer Networks (FTN). Specifically, we first propose a Pyramid Group Transformer (PGT) as the encoder for progressively learning hierarchical features, meanwhile reducing the computation complexity of the standard Visual Transformer (ViT). Then, we propose a Feature Pyramid Transformer (FPT) to fuse semantic-level and spatial-level information from multiple levels of the PGT encoder for semantic image segmentation. Surprisingly, this simple baseline can achieve better results on multiple challenging semantic segmentation and face parsing benchmarks, including PASCAL Context, ADE20K, COCOStuff, and CelebAMask-HQ. The source code will be released on https://github.com/BR-IDL/PaddleViT.

연구 동기 및 목표

CNN 구성 요소 없이 픽셀 단위의 의미 분할을 위한 순수 Transformer 아키텍처의 탐구를 동기화한다.
제어 가능한 수용 영역을 가진 다중 스케일 표현을 학습하기 위한 계층적 Transformer 인코더(PGT)를 도입한다.
다층 간 의미 정보와 공간 정보를 융합하는 Transformer 기반 디코더(FPT)를 제안한다.
표준 분할 벤치마크에서 최첨단 성능을 시연한다.

제안 방법

Pyramid Group Transformer(PGT)를 패치 변환과 Pyramid Group Multi-Head Self-Attention(PG-MSA)을 사용한 네 단계 인코더로 정의하고 계층적 특징을 학습한다.
비중첩 그룹 내 주의(attention)를 구성해 단계별로 증가시키며 수용 영역을 제어한다.
다층 피드백형 위상 디코더로서의 Feature Pyramid Transformer(FPT)을 도입하고 측면 연결 및 Transformer 블록으로 고해상도 예측을 구성한다.
FTN을 완전한 Transformer 기반 인코더-디코더 프레임워크로 학습하고 PASCAL Context, ADE20K, COCO-Stuff, CelebAMask-HQ에서 평가한다.
PGT를 ImageNet-1K에서 사전 학습하고 분할 벤치마크에서 미세 조정한다; 표준 데이터 증가 및 학습 스케줄을 적용한다.

실험 결과

연구 질문

RQ1완전한 Transformer 기반의 인코더-디코더 프레임워크가 표준 벤치마크에서 CNN 기반 분할 모델과 일치하거나 능가할 수 있는가?
RQ2Transformer 기반 디코더를 이용한 피라미드/그룹화된 자기 주의 인코더가 픽셀 수준의 예측에 대해 다중 스케일 맥락을 효과적으로 포착하는가?
RQ3인코더/디코더 선택 및 다중 스케일 융합 전략이 분할 정확도에 미치는 영향은 무엇인가?
RQ4FTN은 정확도와 효율성 측면에서 최첨단 Transformer 및 CNN 기반 분할 방법과 어떻게 비교되는가?

주요 결과

Method	Backbone	mIoU	PASCAL Context	ADE20K	COCO-Stuff
FTN-T (ours)	PGT-T	51.15	47.12	41.57	-
FTN-S (ours)	PGT-S	53.09	48.68	43.63	-
FTN-B (ours)	PGT-B	54.93	50.88	44.82	-
FTN-L (ours)	PGT-L	56.05	51.36	45.89	-
UperNet(Swin-B)	Swin-B	52.57	49.72	42.20	-
SETR-MLA ViT-L/16	ViT-L/16	55.83	50.28	-	-

PGT와 FPT를 갖춘 FTN은 주요 벤치마크에서 최첨단 또는 경쟁적 mIoU를 달성한다: FTN-L의 경우 56.05% (PASCAL Context), 51.36% (ADE20K), 45.89% (COCO-Stuff).
FTN-T, FTN-S, FTN-B, FTN-L은 유사한 계산량에서 비교 가능한 백본(PVT, Swin, ViT)보다 앞서며, 일부 설정에서 FTN-L이 ViT-L/16을 능가한다.
Pyramid Group Transformer(PGT)는 계층적 특징을 학습하고 글로벌 ViT에 비해 계산/메모리를 줄여 밀집 예측을 가능하게 한다.
Feature Pyramid Transformer(FPT)는 다층의 의미 정보와 공간 정보를 효과적으로 융합하여 다른 디코더에 비해 일관된 이득을 얻는다.
FTN 변형은 CelebAMask-HQ의 얼굴 파싱에서도 강력한 성능을 보여주며, FTN-L이 평균 F1 점수 87.4점을 달성하고 여러 베이스라인을 능가한다.
ImageNet-1K에서의 사전 학습은 경쟁력 있는 결과에 충분하며, 더 큰 백본과 다중 스케일 추론을 사용할 때 향상이 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.