[논문 리뷰] ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models
Elevater는 공용 벤치마크와 오픈 소스 도구를 제공하여 20개 이미지 분류 데이터셋과 35개 객체 탐지 데이터셋에서 언어-강화 시각 모델의 태스크 수준 전이 평가를 수행하며, 지식 증강 및 자동 하이퍼파라미터 튜닝을 제공합니다.
Learning visual representations from natural language supervision has recently shown great promise in a number of pioneering works. In general, these language-augmented visual models demonstrate strong transferability to a variety of datasets and tasks. However, it remains challenging to evaluate the transferablity of these models due to the lack of easy-to-use evaluation toolkits and public benchmarks. To tackle this, we build ELEVATER (Evaluation of Language-augmented Visual Task-level Transfer), the first benchmark and toolkit for evaluating(pre-trained) language-augmented visual models. ELEVATER is composed of three components. (i) Datasets. As downstream evaluation suites, it consists of 20 image classification datasets and 35 object detection datasets, each of which is augmented with external knowledge. (ii) Toolkit. An automatic hyper-parameter tuning toolkit is developed to facilitate model evaluation on downstream tasks. (iii) Metrics. A variety of evaluation metrics are used to measure sample-efficiency (zero-shot and few-shot) and parameter-efficiency (linear probing and full model fine-tuning). ELEVATER is a platform for Computer Vision in the Wild (CVinW), and is publicly released at at https://computer-vision-in-the-wild.github.io/ELEVATER/
연구 동기 및 목표
- 다양한 다운스트림 데이터셋에서 야생에서의 언어-강화 시각 모델의 전이 가능성을 평가한다.
- 다운스트림 작업을 보강하기 위한 외부 지식 소스를 도입하고 제로/소수/전체 샷 전이에 대한 영향을 연구한다.
- 벤치마크 전반에 걸친 공정하고 재현 가능한 모델 적응 및 평가를 위한 자동 도구키트를 제공한다.
제안 방법
- 외부 지식으로 보강된 20개의 IC 데이터셋 ICinW와 35개의 OD 데이터셋으로 구성된 공개 벤치마크를 구성한다.
- 수동 튜닝 없이 공정한 비교를 보장하기 위해 자동 하이퍼파라미터 튜닝이 가능한 오픈 소스 도구키트를 개발한다.
- 모델 적응을 위한 언어 기반 초기화의 두-투사(two-projection) 및 한-프로젝션(one-projection) 스키마를 포함한 언어 증강 적응 방법을 제안한다.
- 제로/소수/전체 샷 전이와 효율성 지표로 선형 탐색(linear probing) 대 전체 모델 미세조정 비교를 평가한다.
- 외부 지식 소스(WordNet, Wiktionary, GPT-3)를 도입하여 제로/소수/전체 샷 전이에 미치는 영향을 평가한다.
실험 결과
연구 질문
- RQ1언어 증강이 다양한 데이터셋에서 이미지 분류 및 객체 탐지의 태스크-수준 전이에 어떤 영향을 미치는가?
- RQ2외부 지식 소스가 제로/소수/전체 샷 전이 성능에 미치는 영향은 무엇인가?
- RQ3어떤 적응 전략(선형 탐색 대 미세 조정) 및 초기화 스키마가 다운스트림 작업에서 언어와 지식을 가장 잘 활용하는가?
주요 결과
- 언어 증강 모델은 소수 샷 환경에서 일관되게 언어가 없는 기본 모델보다 우수하다.
- 언어 초기화 적응(두-투사 또는 한-투사)은 IC와 OD에서 무작위 초기화에 비해 성능을 크게 향상시킨다.
- 소수 샷 결과는 제로 샷보다 일반적으로 좋으며, 제로 샷 지배에 대한 일부 초기 연구와 대조된다.
- 선형 탐색은 매우 적은 샷 설정에서 종종 전체 미세조정보다 더 나은 성능을 보이며, 데이터가 늘어나면 미세조정이 선형 탐색을 능가할 수 있다.
- 외부 지식(WordNet, Wiktionary, GPT-3)은 여러 데이터셋에서 제로/소수/전체 샷 전이를 개선하며, GPT-3는 신중하게 활용하면 보다 넓은 커버리지를 제공한다.
- 프롬프트 기반 또는 지식 통합 적응(예: GLIP 유사 프롬프트)은 더 적은 학습 가능 매개변수로도 경쟁력 있는 혹은 우수한 성능을 달성할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.