[논문 리뷰] Language-driven Semantic Segmentation
LSeg는 텍스트 인코더(예: CLIP)를 사용해 임의의 레이블 설명을 임베딩하고, 각 픽셀 임베딩을 이 텍스트 임베딩과 정렬시키도록 Dense 이미지 인코더를 학습하여 재훈련 없이도 제로샷 의미론적 분할과 유연한 레이블 구성을 가능하게 한다.
We present LSeg, a novel model for language-driven semantic image segmentation. LSeg uses a text encoder to compute embeddings of descriptive input labels (e.g., "grass" or "building") together with a transformer-based image encoder that computes dense per-pixel embeddings of the input image. The image encoder is trained with a contrastive objective to align pixel embeddings to the text embedding of the corresponding semantic class. The text embeddings provide a flexible label representation in which semantically similar labels map to similar regions in the embedding space (e.g., "cat" and "furry"). This allows LSeg to generalize to previously unseen categories at test time, without retraining or even requiring a single additional training sample. We demonstrate that our approach achieves highly competitive zero-shot performance compared to existing zero- and few-shot semantic segmentation methods, and even matches the accuracy of traditional segmentation algorithms when a fixed label set is provided. Code and demo are available at https://github.com/isl-org/lang-seg.
연구 동기 및 목표
- 의미론적 분할에서 고정 레이블 세트의 한계를 언어 주도형 레이블 표현으로 해결한다.
- descriptive 레이블을 임베딩하기 위해 텍스트 인코더를 활용하고 픽셀 임베딩과 이 레이블 임베딩을 정렬하도록 이미지 인코더를 학습한다.
- 추가적인 학습 샘플 없이 제로샷 및 소수샷 분할 기능을 입증한다.
- 언어 공간의 의미론적 유사성이 unseen 클래스의 시각 도메인에 어떻게 전달되는지 보여준다.
제안 방법
- 사전 학습된 텍스트 인코더(CLIP)로 레이블을 임베딩해 개수나 순서에 상관없이 레이블 임베딩 집합을 생성한다.
- 입력 이미지에 대해 픽셀-별 임베딩을 생성하는 Dense 프리딕션 트랜스포머 이미지 인코더를 사용한다.
- 픽셀 임베딩과 레이블 임베딩 간의 내적곱으로 픽셀-별 상관관계 텐서를 계산하고, 픽셀-별 소프트맥스 크로스 엔트로피 손실로 ground-truth 픽셀을 해당 레이블과 일치시키며 학습한다.
- 레이블 순서를 등가적으로 보존하면서 예측을 업샘플링하고 다듬기 위해 DepthwiseBlock 또는 BottleneckBlock과 같은 공간 규제 모듈을 도입한다.
- 학습 중 텍스트 인코더를 동결하고 이미지 인코더만 업데이트하여 임의의 레이블 세트에 대해 제로샷 분할 맵의 유연한 합성을 가능하게 한다.
실험 결과
연구 질문
- RQ1언어에 내재된 레이블 공간이 새로운 클래스에 대해 재훈련 없이도 정확한 제로샷 의미론적 분할을 가능하게 하는가?
- RQ2테스트 시 레이블 세트를 바꾸거나 확장하는 것이 분할 품질과 유연성에 어떤 영향을 미치는가?
- RQ3언어 주도형 레이블 임베딩이 시각적으로 관련된 개념(예: 개와 애완동물)을 픽셀 라벨링에 얼마나 잘 정렬시키는가?
- RQ4다양한 텍스트 인코더와 백본이 제로샷 분할 성능에 미치는 영향은 무엇인가?
- RQ5LSeg는 표준 벤치마크에서 고정 레이블 및 소수샷 분할 기반 방법과 어떻게 비교되는가?
주요 결과
| 모델 | 백본 | 방법 | 5^0 | 5^1 | 5^2 | 5^3 | 평균 | FB-IoU |
|---|---|---|---|---|---|---|---|---|
| OSLSM | 1-shot | 33.6 | 55.2 | 40.9 | 33.5 | 40.8 | 61.3 | |
| co-FCN | VGG16 | 1-shot | 36.7 | 50.6 | 44.9 | 32.4 | 41.1 | 60.1 |
| AMP-2 | 1-shot | 41.9 | 50.2 | 46.7 | 34.7 | 43.4 | 61.9 | |
| PANet | ResNet50 | 1-shot | 44.0 | 57.5 | 50.8 | 44.0 | 49.1 | - |
| PGNet | 1-shot | 56.0 | 66.9 | 50.6 | 50.4 | 56.0 | 69.9 | |
| FWB | ResNet101 | 1-shot | 51.3 | 64.5 | 56.7 | 52.2 | 56.2 | - |
| PPNet | 1-shot | 52.7 | 62.8 | 57.4 | 47.7 | 55.2 | 70.9 | |
| DAN | 1-shot | 54.7 | 68.6 | 57.8 | 51.6 | 58.2 | 71.9 | |
| PFENet | 1-shot | 60.5 | 69.4 | 54.4 | 55.9 | 60.1 | 72.9 | |
| RePRI | 1-shot | 59.6 | 68.6 | 62.2 | 47.2 | 59.4 | - | |
| HSNet | 1-shot | 67.3 | 72.3 | 62.0 | 63.1 | 66.2 | 77.6 | |
| SPNet | ResNet101 | zero-shot | 23.8 | 17.0 | 14.1 | 18.3 | 18.3 | 44.3 |
| ZS3Net | zero-shot | 39.1? | 39.4 | 39.3 | 33.6 | 38.3 | 57.7 | |
| LSeg | ResNet101 | zero-shot | 52.8 | 53.8 | 44.4 | 38.5 | 47.4 | 64.1 |
| LSeg | ViT-L/16 | zero-shot | 61.3 | 63.6 | 43.1 | 41.0 | 52.3 | 67.0 |
- LSeg는 벤치마크에서 기존의 제로샷 및 소수샷 방법과 비교해 경쟁력 있는 제로샷 성능을 달성한다.
- 더 큰 백본(ViT-L/16)을 사용할 때 LSeg는 강력한 제로샷 결과를 얻어 일부 소수샷 방법과 견줄 만하다.
- 레이블이 고정된 경우에 비해 텍스트 임베딩이 도입되더라도 성능 저하가 작다.
- 레이블 세트를 바꿔 학습 재실행 없이도 즉시 제로샷 분할 모델을 합성할 수 있다.
- 공간 규제 모듈은 레이블 유연한 프레임워크를 해치지 않으면서 픽셀 수준 예측을 개선한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.