[논문 리뷰] Intriguing properties of generative classifiers
이 논문은 텍스트-이미지 모델의 제로샷 생성 분류기가 인간과 유사한 형태 편향을 보이고, 거의 인간 수준의 OOD 정확도, 인간 정렬의 오차 패턴 및 시각 일루션 이해를 나타내며, 여러 측면에서 많은 판별 모델보다 우수하다는 것을 보여준다.
What is the best paradigm to recognize objects -- discriminative inference (fast but potentially prone to shortcut learning) or using a generative model (slow but potentially more robust)? We build on recent advances in generative modeling that turn text-to-image models into classifiers. This allows us to study their behavior and to compare them against discriminative models and human psychophysical data. We report four intriguing emergent properties of generative classifiers: they show a record-breaking human-like shape bias (99% for Imagen), near human-level out-of-distribution accuracy, state-of-the-art alignment with human classification errors, and they understand certain perceptual illusions. Our results indicate that while the current dominant paradigm for modeling human object recognition is discriminative inference, zero-shot generative models approximate human object recognition data surprisingly well.
연구 동기 및 목표
- 생성 모델이 제로샷 설정에서 물체 인식을 수행할 수 있는지, 그리고 그들의 행동이 판별 모델 및 인간과 어떻게 비교되는지 평가한다.
- 도전적인 분포 외 데이터셋에서 생성 분류기의 지각 특성을 특징짓는다.
- 생성 분류기가 인간의 오류 패턴에 맞추어지고 지각적 환상을 이해하는지 여부를 조사한다.
- 생성 분류기의 형태 편향 및 강인성에 기여하는 요인들과 뇌에서 영감을 받은 지각에 대한 잠재적 시사점을 탐구한다.
제안 방법
- 텍스트-이미지 모델을 제로샷 분류기로 취급하여 p(x|y)를 'A bad photo of a y.'와 같은 프롬프트를 사용해 계산하고 가장 높은 가능도를 가진 클래스를 선택한다.
- 확산 모델에 대해 확산 변분 하한(식(2))을 통해 조건부 로그 가능도 approximates 한다.
- Imagen(확산), Stable Diffusion(잠재 공간의 확산), Parti(자회귀)의 세 모델 계를 모델-대 인간 도구상에서의 17개의 도전적 분포 외 데이터셋에 대해 평가한다.
- 52개의 판별적 베이스라인과 인간 심리물리 데이터와 비교한다.
- 모델별 해상도로 이미지를 전처리하고 고정 프롬프트 체계를 사용해 분류 결정을 도출한다.
- 형태 편향, OOD 정확도 및 데이터셋 간 오류 일관성을 측정한다.
실험 결과
연구 질문
- RQ1제로샷 생성 분류기가 판별 모델과 비교할 때 인간과 유사한 형태 편향을 보이나?
- RQ2생성 분류기가 인간 및 판별 모델에 비해 분포 외 물체 인식 작업에서 어떤 성능을 보이나?
- RQ3생성 분류기가 인간의 분류 오류와 일치하고 인간과 유사한 지각적 환상 이해를 보여주나?
- RQ4확산형 생성 모델에서 형태 편향과 강인성에 기여하는 요인은 무엇인가?
주요 결과
| 모델 | 모델 유형 | 형태 편향 | OOD 정확도 | 오류 일관성 |
|---|---|---|---|---|
| Imagen (1 prompt) | zero-shot | 99% | 0.71 | 0.31 |
| StableDiffuson (1 prompt) | zero-shot | 93% | 0.69 | 0.26 |
| Parti (1 prompt) | zero-shot | 92% | 0.58 | 0.23 |
| CLIP (1 prompt) | zero-shot | 80% | 0.55 | 0.26 |
| CLIP (80 prompts) | zero-shot | 57% | 0.71 | 0.28 |
| ViT-22B-384 trained on 4B images | discriminative | 87% | 0.80 | 0.26 |
| ViT-L trained on IN-21K | discriminative | 42% | 0.73 | 0.21 |
| RN-50 trained on IN-1K | discriminative | 21% | 0.56 | 0.21 |
| RN-50 trained w/ diffusion noise | discriminative | 57% | 0.57 | 0.24 |
| RN-50 train+eval w/ diffusion noise | discriminative | 78% | 0.43 | 0.18 |
- Imagen은 99%의 형태 편향, 거의 인간 수준의 OOD 정확도, 인간과의 오류 일관성에서 높은 성과를 보인다.
- Stable Diffusion은 93%의 형태 편향과 Imagen보다 약간 낮은 강인성을 가진 강한 OOD 성능을 보인다.
- Parti는 92%의 형태 편향과 상당한 OOD 강인성 및 다수의 베이스라인 대비 오류 일관성 증가를 달성한다.
- 생성 분류기가 인간과 유사한 오류 패턴을 보이며 여러 데이터셋에서 이전 SOTA 판별 모델보다 오류 일관성에서 우월하다.
- 재구성 기반 프롬프트를 통해 특정 시각적 환상을 이해하는 능력을 시연한다.
- 17개의 OOD 데이터셋 전반에서 제로샷 생성 분류기가 강인성 과제에서 인간과 유사한 성과에 근접한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.