[논문 리뷰] Towards Open Vocabulary Learning: A Survey
이 종합 검토는 컴퓨터 비전에서 열린 어휘 학습에 대해 포괄적인 리뷰를 제공하며, 객체 검출, 세분화, 비디오 이해 및 3D 장면 이해를 중심으로 다룹니다. 열린 어휘 학습을 제로샷 학습 및 약한 지도 학습의 일반화로 정의하고, 시각-언어 사전학습을 활용하여 추가 애너테이션 없이도 새로운 카테고리 인식이 가능하게 하여 COCO 및 ADE20K와 같은 벤치마크에서 최신 기술 성능을 달성합니다.
In the field of visual scene understanding, deep neural networks have made impressive advancements in various core tasks like segmentation, tracking, and detection. However, most approaches operate on the close-set assumption, meaning that the model can only identify pre-defined categories that are present in the training set. Recently, open vocabulary settings were proposed due to the rapid progress of vision language pre-training. These new approaches seek to locate and recognize categories beyond the annotated label space. The open vocabulary approach is more general, practical, and effective compared to weakly supervised and zero-shot settings. This paper provides a thorough review of open vocabulary learning, summarizing and analyzing recent developments in the field. In particular, we begin by comparing it to related concepts such as zero-shot learning, open-set recognition, and out-of-distribution detection. Then, we review several closely related tasks in the case of segmentation and detection, including long-tail problems, few-shot, and zero-shot settings. For the method survey, we first present the basic knowledge of detection and segmentation in close-set as the preliminary knowledge. Next, we examine various scenarios in which open vocabulary learning is used, identifying common design elements and core ideas. Then, we compare the recent detection and segmentation approaches in commonly used datasets and benchmarks. Finally, we conclude with insights, issues, and discussions regarding future research directions. To our knowledge, this is the first comprehensive literature review of open vocabulary learning. We keep tracing related works at https://github.com/jianzongwu/Awesome-Open-Vocabulary.
연구 동기 및 목표
- 실제 응용에서 훈련 세트 외에 새로운 객체 카테고리가 자주 등장하는 데서 비롯되는 닫힌 세트 학습의 한계를 해결하기 위해.
- 열린 어휘 학습, 제로샷 학습, 오픈세트 인식, 그리고 분포 외 검출 간의 차이를 명확히 하기 위해.
- 여러 벤치마크와 데이터셋을 통해 최근의 열린 어휘 검출 및 세분화 기술의 발전을 체계적으로 조사하고 분석하기 위해.
- 시각-언어 모델(VLMs)과 보조 언어 지도(예: 이미지 캡션)가 새로운 카테고리로의 확장 가능하고 애너테이션 없이 일반화하는 데 어떻게 기여하는지 평가하기 위해.
- 특히 긴 尾, 소수 샘플, 일반화된 제로샷 설정에서 열린 어휘 학습을 위한 강건하고 확장 가능하며 일반화 가능한 성능을 달성하는 데 있어 남아 있는 과제와 향후 연구 방향을 규명하기 위해.
제안 방법
- 제로샷 학습(ZSL), 오픈세트 인식(OSR), 분포 외(OOD) 검출과 같은 관련된 개념들과의 비교를 통해 열린 어휘 학습을 분류하고 비교하기 위해.
- CLIP 및 ALBEF와 같은 시각-언어 모델(VLMs)을 사용한 열린 어휘 검출 및 인스턴스 세분화의 최신 기법들을 조사하기 위해.
- 비용이 많이 드는 바운딩 박스 및 마스크 애너테이션에 대한 의존도를 줄이기 위해 이미지 캡션과 텍스트 임베딩을 약한 지도로 활용하는 방법을 분석하기 위해.
- COCO, LVIS, ADE20K, ScanNet 등의 표준 벤치마크에서 제약 조건 설정 및 일반화 설정 모두에서 방법을 평가하기 위해.
- ResNeXt, Swin, ViT 등의 백본 아키텍처와 CLIP, Stable Diffusion 등의 VLMs를 성능 및 일반화 능력 측면에서 비교하기 위해.
- 다양한 작업과 데이터셋에서 프롬프트 학습, 대비 사전학습, 마스크 없는 학습과 같은 설계 패턴에 대한 통찰을 통합하기 위해.
실험 결과
연구 질문
- RQ1열린 어휘 학습은 제로샷 학습, 오픈세트 인식, 분포 외 검출과 비교할 때 가정과 기능 측면에서 어떻게 다릅니까?
- RQ2열린 어휘 검출 및 세분화에서 최신 성능을 달성하는 데 기여하는 핵심 기술 구성 요소와 설계 패턴은 무엇입니까?
- RQ3기존의 ZSL에 비해 시각-언어 모델과 보조 언어 지도(예: 캡션)가 새로운 카테고리로의 일반화에 얼마나 기여합니까?
- RQ4다양한 백본 아키텍처와 VLMs가 열린 어휘 검출, 세분화, 3D 이해 작업 전반에서 성능에 어떻게 영향을 미칩니까?
- RQ5실제 응용에서 강건하고 확장 가능하며 일반화 가능한 열린 어휘 학습을 달성하기 위한 주요 과제와 열린 문제들은 무엇입니까?
주요 결과
- CGG 방법은 사전 학습된 VLM이나 추가 데이터를 사용하지 않고도 COCO 인스턴스 세분화에서 46.8 APbase와 29.5 APnovel을 달성하여 외부 지도를 활용하는 방법들을 능가했습니다.
- 마스크 없는 OVIS는 마스크 애너테이션 없이도 COCO에서 27.4 APnovel을 기록하여 오직 이미지 캡션만으로도 새로운 클래스로의 강력한 일반화 능력을 입증했습니다.
- ODISE-cap는 ADE20K 패노믹 세분화에서 23.4의 최고 PQ 스코어를 기록하여 두 번째로 좋은 방법보다 0.8점 높은 성능을 보였습니다.
- PADing은 COCO 패노믹 세분화에서 알려진 클래스에 대해 41.5 PQ를 기록했고, Freeseg는 알려지지 않은 클래스에 대해 최고의 PQ 29.8을 달성했습니다.
- Open-VCLIP는 UCF, HMDB, Kinetics-400의 세 가지 비디오 분류 벤치마크에서 모두 최고 성능을 기록하여 VLM이 비디오 인식에서 효과적이라는 것을 입증했습니다.
- RegionPLC는 3D 세분화에서 새로운 카테고리에 대해 강력한 mIoU 성능(νScenes에서 hIoU 65.1)을 기록하여 3D 장면에서 알려지지 않은 클래스로의 강력한 일반화 능력을 보였습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.