Skip to main content
QUICK REVIEW

[논문 리뷰] Visual Classification via Description from Large Language Models

Sachit Menon, Carl Vondrick|arXiv (Cornell University)|2022. 10. 13.
Multimodal Machine Learning Applications인용 수 57
한 줄 요약

이 논문은 카테고리 이름 임베딩을 GPT-3으로 생성된 언어 서술(descriptors)로 대체하고 이를 CLIP으로 접지 grounding하여 제로샷 시각 분류, 해석 가능성 및 적응성을 향상시킨다.

ABSTRACT

Vision-language models (VLMs) such as CLIP have shown promising performance on a variety of recognition tasks using the standard zero-shot classification procedure -- computing similarity between the query image and the embedded words for each category. By only using the category name, they neglect to make use of the rich context of additional information that language affords. The procedure gives no intermediate understanding of why a category is chosen, and furthermore provides no mechanism for adjusting the criteria used towards this decision. We present an alternative framework for classification with VLMs, which we call classification by description. We ask VLMs to check for descriptive features rather than broad categories: to find a tiger, look for its stripes; its claws; and more. By basing decisions on these descriptors, we can provide additional cues that encourage using the features we want to be used. In the process, we can get a clear idea of what features the model uses to construct its decision; it gains some level of inherent explainability. We query large language models (e.g., GPT-3) for these descriptors to obtain them in a scalable way. Extensive experiments show our framework has numerous advantages past interpretability. We show improvements in accuracy on ImageNet across distribution shifts; demonstrate the ability to adapt VLMs to recognize concepts unseen during training; and illustrate how descriptors can be edited to effectively mitigate bias compared to the baseline.

연구 동기 및 목표

  • 시각 카테고리의 원시 카테고리 이름을 설명적 언어 서술(descriptive linguistic descriptors)로 대체하도록 동기를 부여한다.
  • 대규모 언어 모델을 사용하여 디스크립터를 생성하는 확장 가능한 방법을 제안한다.
  • 디스크립터를 비전-언어 모델로 접지하여 투명하게 카테고리 점수를 계산한다.
  • 정확도 향상, 새로운 개념에 대한 적응성, 편향 수정 능력을 입증한다.

제안 방법

  • 카테고리 c를 자연어 문장으로 표현된 디스크립터 집합 D(c)로 표현한다.
  • 카테고리 점수 s(c, x)를 디스크립터의 평균 관련성으로 계산: s(c,x)= (1/|D(c)|) * sum_{d in D(c)} phi(d,x), 여기서 phi(d,x)는 이미지 x에 해당하는 디스크립터 d의 로그 확률이다.
  • 대규모 언어 모델(예: GPT-3)에 ‘사진에서 {category}를 구분하기 위한 유용한 특징은 무엇인가?’와 같은 질의로 D(c)를 자동으로 구성한다.
  • 이미지와 텍스트 디스크립터 간의 유사성을 측정하고 클래스 이름으로 조건화하여 CLIP 등 비전-언어 모델로 디스크립터를 접지한다.
  • 주어진 이미지에 대해 어떤 디스크립터가 활성화되었고 왜 해당 카테고리가 선택되었는지 검사 가능한 해석 가능성을 제공한다.
  • s(c,x)가 가장 높은 카테고리를 선택하여 분류를 수행한다.
  • 편향 완화 및 새로운 개념에 적응하기 위해 디스크립터를 어떻게 편집할 수 있는지 설명한다.

실험 결과

연구 질문

  • RQ1LLM 생성 속성 기반 디스크립터 분류가 표준 CLIP형 카테고리 이름 임베딩보다 정확도를 향상시킬 수 있는가?
  • RQ2디스크립터 기반 모델이 의사결정을 이끄는 특징을 공개함으로써 고유한 해석 가능성을 제공하는가?
  • RQ3GPT-3에서 파생된 디스크립터가 학습 중이거나 배포 후 보지 못한 개념의 인식을 가능하게 하는가?
  • RQ4디스크립터 편집이 편향에 어떤 영향을 미치고 인구통계학적 또는 문화적 하위 그룹 간 공정성을 어떻게 개선할 수 있는가?

주요 결과

  • 다수의 데이터셋에서 CLIP 대비 일관된 정확도 향상을 달성했고, ImageNet에서 약 3–5%, 일부 비자연 이미지 도메인에서 최대 약 7%의 향상을 보고한다.
  • 사후 학습에서 GPT-3 디스크립터를 활용해 새로운 개념을 인식하는 능력을 시演하며, 해당 예시에서 CLIP가 실패한 경우에도 상위-10에서 100% 재현을 달성했다.
  • 디스크립터가 의사결정에 기여한 특징을 보여 주어 예측을 설명 가능하게 한다.
  • 디스크립터 편집은 편향을 완화하고(예: 결혼 문화 편향) 대표되지 않는 그룹의 정확도를 향상시킨다.
  • 추가 학습 없이 해석 가능성을 제공하고 LLM을 통한 디스크립터 생성으로 확장 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.