[논문 리뷰] Segmentation Transformer: Object-Contextual Representations for Semantic Segmentation
본 논문은 의미론적 분할을 위한 객체-맥락 표현(OCR)을 도입하여 학습된 객체 영역으로 픽셀 특징을 집계하고 이를 Transformer 유사 인코더-디코더 프레임워크를 통해 통합하여 벤치마크 전반의 분할 정확도를 향상시킨다.
In this paper, we address the semantic segmentation problem with a focus on the context aggregation strategy. Our motivation is that the label of a pixel is the category of the object that the pixel belongs to. We present a simple yet effective approach, object-contextual representations, characterizing a pixel by exploiting the representation of the corresponding object class. First, we learn object regions under the supervision of ground-truth segmentation. Second, we compute the object region representation by aggregating the representations of the pixels lying in the object region. Last, % the representation similarity we compute the relation between each pixel and each object region and augment the representation of each pixel with the object-contextual representation which is a weighted aggregation of all the object region representations according to their relations with the pixel. We empirically demonstrate that the proposed approach achieves competitive performance on various challenging semantic segmentation benchmarks: Cityscapes, ADE20K, LIP, PASCAL-Context, and COCO-Stuff. Cityscapes, ADE20K, LIP, PASCAL-Context, and COCO-Stuff. Our submission "HRNet + OCR + SegFix" achieves 1-st place on the Cityscapes leaderboard by the time of submission. Code is available at: https://git.io/openseg and https://git.io/HRNet.OCR. We rephrase the object-contextual representation scheme using the Transformer encoder-decoder framework. The details are presented in~Section3.3.
연구 동기 및 목표
- 픽셀 레이블링에 맥락 집계를 동기화하여 레이블을 해당 객체 클래스로 다루는 것을 동기로 삼는다.
- 소프트 객체 영역과 그 영역 표현을 학습하는 객체-맥락 표현을 제안한다.
- 픽셀 표현을 객체-영역 표현의 가중치 합으로 보강하여 픽셀-영역 간 관계를 통해 객체-맥락 표현을 반영한다.
- Cityscapes, ADE20K, LIP, PASCAL-Context, COCO-Stuff, COCO panoptic 과제에서 강력한 성능을 시연한다.
제안 방법
- 백본 특징에서 학습된 거친 소프트 세분화에 따라 각 클래스에 대응하는 소프트 객체 영역 M1,...,MK를 형성한다.
- 정규화된 영역 소속 tilde{m}_{ki}로 가중치를 주어 픽셀 특징 x_i를 모아 객체 영역 표현 f_k를 계산한다.
- 이차함수 kappa(x_i, f_k)의 소프트맥스화된 bilinear 함수를 통해 픽셀-객체 영역 관계 w_{ik}를 계산하고 이를 통해 객체-맥 Kontext 표현 y_i를 얻는다.
- 작은 신경 변환을 통해 원래의 픽셀 특징 x_i와 객체-맥락 표현 y_i를 융합하여 증강 픽셀 특징 z_i를 형성한다.
- Segmentation Transformer 내에서 OCR을 재구성한다: 디코더 교차 어텐션에서 K개의 카테고리 질의를 객체-영역 선택기로 사용하여 M_k와 f_k를 생성하고, 인코더 교차 어텐션은 객체-영역 표현을 각 픽셀 예측에 통합한다.
- 백본 선택으로는 확장된 ResNet-101 또는 HRNet-W48을 포함하며 OCR 모듈은 픽셀 단위 교차 엔트로피 손실을 객체-영역 감독과 최종 분할 모두에 대해 엔드 투 엔드로 학습한다.
실험 결과
연구 질문
- RQ1객체-맥락 표현이 픽셀-대 객체 영역 관계를 명시적으로 모델링함으로써 의미론적 분할을 개선할 수 있는가?
- RQ2부드러운 객체 영역과 그 지역 표현이 픽셀 단위 분류 정확도에 어떤 영향을 미치는가?
- RQ3Transformer-식 교차 어텐션 메커니즘이 분할 작업에서 OCR 개념을 효과적으로 구현하는가?
- RQ4OCR과 다중 스케일 및 관계적 맥틱 컨텍스트 방법들 간의 효율성과 정확도 무슨 Trade-off가 있는가?
주요 결과
- OCR은 Cityscapes, ADE20K, LIP, PASCAL-Context, COCO-Stuff에서 다중 스케일(PPM/ASPP) 및 관계적 컨텍스트 베이스라인보다 향상된 성능을 보인다.
- 객체-영역 감독과 픽셀–영역 관계 추정은 모두 성능 향상에 기여한다.
- 이 방법은 여러 벤치마크에서 경쟁적이거나 최첨단 결과를 달성하며, 여러 관계적 및 다중 스케일 컨텍스트 방법과 비교했을 때 메모리, FLOPs, 런타임 측면에서 우호적임을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.