[논문 리뷰] Three ways to improve feature alignment for open vocabulary detection
본 논문은 제로샷 오픈 보캐 vocabulary 탐지에서 시각-언어 특징 정합성을 향상시키기 위한 세 가지 방법을 제시한다: (1) 텍스트 임베딩을 증강하기 위한 효율적 텍스트 증강, (2) 학습 가능한 게이트 단축 경로를 갖춘 정합 보존 아키텍처, (3) 대규모 이미지-텍스트 데이터셋을 이용한 배치-네거티브를 활용한 자체 학습; 이들 방법은 함께 LVIS-R의 mAPall에서 최첨단에 도달하고 mAPrare에서 경쟁력 있는 성능을 보여준다.
The core problem in zero-shot open vocabulary detection is how to align visual and text features, so that the detector performs well on unseen classes. Previous approaches train the feature pyramid and detection head from scratch, which breaks the vision-text feature alignment established during pretraining, and struggles to prevent the language model from forgetting unseen classes. We propose three methods to alleviate these issues. Firstly, a simple scheme is used to augment the text embeddings which prevents overfitting to a small number of classes seen during training, while simultaneously saving memory and computation. Secondly, the feature pyramid network and the detection head are modified to include trainable gated shortcuts, which encourages vision-text feature alignment and guarantees it at the start of detection training. Finally, a self-training approach is used to leverage a larger corpus of image-text pairs thus improving detection performance on classes with no human annotated bounding boxes. Our three methods are evaluated on the zero-shot version of the LVIS benchmark, each of them showing clear and significant benefits. Our final network achieves the new stateof-the-art on the mAP-all metric and demonstrates competitive performance for mAP-rare, as well as superior transfer to COCO and Objects365.
연구 동기 및 목표
- 제로샷 오픈 보캐니언 탐지를 지원하기 위한 시각 특징과 텍스트 특징 간의 정합성 개선.
- 탐지기 학습 중 보지 못한 클래스의 망각 완화.
- 대형 LM 임베딩을 다룰 때 학습 효율을 높이고 메모리 사용을 줄인다.
- 자체 학습을 통해 대규모 이미지-텍스트 데이터를 활용하여 미지의 클래스 성능을 향상시킨다.
제안 방법
- 64 가지 변형이나 여러 템플릿을 통해 언어 모델 유래 텍스트 임베딩을 증강하여 과적합을 방지하고 메모리 사용을 줄인다.
- 초기화 시 최종 백본 특징을 detector heads로 전파하도록 게이트 단축 경로를 갖춘 Alignment Preserving Architecture를 도입하여 정합을 보존한다.
- CC12M 자막을 사용한 배치-네거티브로 자체 학습을 적용하여 이미지를 의사 라벨링하고 LVIS-R과 의사 라벨링 데이터를 결합한 강력한 오픈 보캐 탐지기(3Ways)를 학습한다.
실험 결과
연구 질문
- RQ1텍스트 임베딩을 어떻게 증가시켜 학습 클래스에 대한 과적합을 방지하면서도 너무 많은 메모리나 계산 없이 달성할 수 있는가?
- RQ2탐지기 학습 초기에 시각-텍스트 정합을 보존하거나 향상시키는 아키텍처적 변화가 가능한가?
- RQ3대규모 이미지-텍스트 데이터셋의 의사 라벨을 활용한 자체 학습이 제로샷 오픈 보캐 탐지에서 보지 못한 클래스의 탐지를 개선하는가?
주요 결과
| 방법 | 백본 | 매개변수 수 | 자체 학습 | mAPall | mAPrare | mAP공통 | mAP빈도 |
|---|---|---|---|---|---|---|---|
| Detic [46] open-voc. | R50 | 26M | ✓ | 30.4 | 17.4 | 27.8 | 32.4 |
| 1Ways [this work] | NFNet-F0 | 71M | 32.1 ± 0.31 | 18.9 ± 1.13 | 29.5 ± 0.15 | 40.9 ± 0.08 | |
| 2Ways [this work] | NFNet-F0 | 71M | ✓ | 33.8 ± 0.15 | 20.9 ± 0.34 | 32.4 ± 0.20 | 41.0 ± 0.05 |
| 3Ways [this work] | NFNet-F0 | 71M | ✓ | 35.7 ± 0.20 | 25.6 ± 1.12 | 34.2 ± 0.05 | 41.8 ± 0.02 |
| 0Ways [this work] | NFNet-F6 | 440M | 41.6 ± 0.17 | 21.1 ± 0.40 | 42.9 ± 0.19 | 49.2 ± 0.09 | |
| 1Ways [this work] | NFNet-F6 | 440M | 43.5 ± 0.12 | 27.6 ± 0.80 | 44.9 ± 0.10 | 48.8 ± 0.01 | |
| 2Ways [this work] | NFNet-F6 | 440M | 43.5? | 27.6 ± 0.80 | 44.9 ± 0.10 | 48.8 ± 0.01 | |
| 3Ways [this work] | NFNet-F6 | 440M | ✓ | 44.6 ± 0.31 | 30.1 ± 1.83 | 46.0 ± 0.17 | 49.3 ± 0.08 |
- 64 embedding 변형이나 드롭아웃과 함께 텍스트 증강은 보이지 않는 클래스의 mAP를 크게 향상시키고 메모리 사용을 줄인다.
- Alignment Preserving Architecture는 백본과 헤드 전반에서 일관되게 mAP를 개선하고 특히 mAPrare를 크게 높인다.
- 배치-네거티브를 활용한 자체 학습(3Ways)은 mAPall과 mAPrare 모두에서 큰 폭의 향상을 보이며 특히 보지 못한 클래스에 유리하다.
- NFNet-F6 백본과 3Ways 조합은 44.6 mAPall 및 30.1 mAPrare를 달성하여 이전 방법을 크게 앞지른다.
- LVIS-R 전이에서 COCO 및 Objects365로의 일반화가 우수함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.