[논문 리뷰] Recognize Anything: A Strong Image Tagging Model
RAM은 주석 없이 이미지-텍스트 데이터와 의미적 레이블 질의를 활용하여 6,400+ 태그와 오픈-세트 카테고리에 대해 강력한 제로샷 인식을 달성하는 이미지 태깅의 기초 모델이며, CLIP, BLIP 및 일부 전지도 학습 베이스라인보다 우수합니다.
We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM makes a substantial step for large models in computer vision, demonstrating the zero-shot ability to recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google tagging API. We are releasing the RAM at \url{https://recognize-anything.github.io/} to foster the advancements of large models in computer vision.
연구 동기 및 목표
- 분류, 탐지, 분할 데이터셋은 물론 상용 태깅 제품에 걸쳐 일반적인 태그를 포괄하는 보편적이고 통합된 레이블 시스템을 확립한다.
- 보지 못한 카테고리에 대한 제로샷 인식이 가능한 데이터 효율적인 오픈 보캐abulary 태깅 모델을 개발한다.
- 대규모 이미지-텍스트 데이터에서 주석을 자동으로 생성하고 정리하여 태그 품질을 개선하는 데이터 엔진을 만든다.
- 분류, 탐지, 분할 벤치마크에서 RAM의 제로샷 태깅 성능을 보여주고 최첨단 모델과 비교한다.
제안 방법
- 자동 텍스트 의미 분석을 통해 대규모 주석 없는 이미지 태그를 생성하기 위해 캡션을 분석한다.
- 이미지-태그-텍스트 트리플렛을 활용하기 위해 캡션 작성과 태깅 모델을 공동으로 학습한다.
- 오프-더-셸프 텍스트 인코더를 도입하여 태그를 의미적으로 풍부한 텍스트 레이블 질의로 변환하고 오픈 보캐노리즘을 인식하도록 한다.
- Swin Transformer 기반의 비전 백본과 경량의 이미지-태그 인식 디코더, 캡션 생성을 위한 인코더-디코더를 도입한다.
- 언더-카테고리 인식을 개선하고 오픈 세트 기능을 가능하게 하기 위해 CLIP로 이미지 특징을 증류한다.
- 레이블 확장 엔진(추가 태그 생성, Grounding-DINO로 영역 로컬라이징, 영역을 클러스터링하고 이상치를 제거해 라벨을 정제)을 구축한다.
- 성능 향상을 위해 더 작고 고품질의 데이터 세트(COCO)에서 파인튜닝한다.
실험 결과
연구 질문
- RQ1RAM이 주석 없는 학습 데이터만으로도 폭넓은 오픈 세트의 카테고리(6,400+ 이상)에 대해 강력한 제로샷 이미지 태깅을 달성할 수 있는가?
- RQ2캡션 작성과 태깅의 통합, 의미적으로 정보가 풍부한 텍스트 레이블 질의의 사용이 오픈 세트 인식 및 전반적인 태깅 정확도에 어떤 영향을 미치는가?
- RQ3데이터 엔진(생성, 정제, 14M 이미지로의 확장, COCO 파인튜닝)이 태그 품질과 다운스트림 제로샷 성능에 어떤 향상을 주는가?
- RQ4RAM은 제로샷과 감독 학습 설정에서 최첨단 다중 라벨 분류, 탐지, 분할 및 비전-언어 모델과 어떻게 비교되는가?
주요 결과
- RAM은 강력한 제로샷 태깅 성능을 달성하고 여러 벤치마크에서 CLIP 및 BLIP보다 현저히 우수합니다.
- RAM은 일부 전지도 학습 방법을 능가하고 다양한 오픈 세트 시나리오에서 Google 태깅 API와 경쟁합니다.
- RAM의 400만 개 사전 학습 데이터로도 OpenImages-common에서 ML-Decoder를 능가하고, RAM-14M은 여러 테스트에서 추가 이득을 제공합니다.
- 레이블 시스템을 확장하고 의미적 텍스트 질의 레이블을 도입하면 오픈 세트 인식 및 태깅 범위가 크게 개선됩니다.
- 데이터 엔진(생성, 정제, 1400만 이미지 규모 확장, COCO 파인튜닝)은 OPPO-common, OpenImages-common, OpenImages-rare에서 눈에 띄는 성능 향상을 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.