QUICK REVIEW

[논문 리뷰] Patching open-vocabulary models by interpolating weights

Gabriel Ilharco, Mitchell Wortsman|arXiv (Cornell University)|2022. 08. 10.

Multimodal Machine Learning Applications인용 수 27

한 줄 요약

PAINT는 제로샷 가중치와 미세조정 가중치를 선형 보간하여 패치 작업 정확도를 향상시키고 지원 작업에 대한 성능 손실을 크게 줄이면서 다중 작업 패칭과 광범위한 전이 가능성을 유지합니다.

ABSTRACT

Open-vocabulary models like CLIP achieve high accuracy across many image classification tasks. However, there are still settings where their zero-shot performance is far from optimal. We study model patching, where the goal is to improve accuracy on specific tasks without degrading accuracy on tasks where performance is already adequate. Towards this goal, we introduce PAINT, a patching method that uses interpolations between the weights of a model before fine-tuning and the weights after fine-tuning on a task to be patched. On nine tasks where zero-shot CLIP performs poorly, PAINT increases accuracy by 15 to 60 percentage points while preserving accuracy on ImageNet within one percentage point of the zero-shot model. PAINT also allows a single model to be patched on multiple tasks and improves with model scale. Furthermore, we identify cases of broad transfer, where patching on one task increases accuracy on other tasks even when the tasks have disjoint classes. Finally, we investigate applications beyond common benchmarks such as counting or reducing the impact of typographic attacks on CLIP. Our findings demonstrate that it is possible to expand the set of tasks on which open-vocabulary models achieve high accuracy without re-training them from scratch.

연구 동기 및 목표

오픈-보카털레이즈드 모델에서 기존 능력을 해치지 않으면서 특정 작업 정확도를 개선할 필요성의 동기를 제시합니다.
사전-미세조정 가중치와 사후-미세조정 가중치 사이의 보간에 기반한 간단한 두 단계의 패칭 방법(PAINT)을 도입합니다.
다양한 데이터셋과 모델 규모에서 패칭의 효과를 입증하고 다중 작업 및 광범위한 전이 시나리오를 포함합니다.

제안 방법

패칭 작업에서 제로샷 모델을 미세조정하여 ft 가중치를 얻습니다.
혼합 계수 alpha를 사용하여 제로샷 가중치와 미세조정 가중치 사이를 선형 보간하여 패치된 모델을 얻습니다.
패칭 작업과 지원 작업 모두에서 홀드아웃 검증을 통해 alpha를 선택합니다.
공동, 순차, 또는 병렬 전략을 통해 여러 패칭 작업에 PAINT를 적용하고 성능을 비교합니다.
패칭 효과와 scale 증가에 따른 모델 유사성(CKA)을 연구하기 위해 CLIP ViT-L/14 및 ViT-L/14 scale을 사용합니다.

실험 결과

연구 질문

RQ1제로샷 가중치와 미세조정 가중치 간 보간이 지원 작업의 성능을 해치지 않으면서 패칭 작업의 성능을 향상시킬 수 있는가?
RQ2모델 규모가 패칭 가중치 보간의 효과성과 안정성에 어떤 영향을 미치는가?
RQ3단일 모델을 여러 작업에 패칭하는 것이 가능하며, 작업별 모델과 비교하여 어떠한가?
RQ4한 작업에서의 패칭이 관련 작업이나 심지어 분리된 작업에까지 광범위한 전이 이익을 주는가?
RQ5PAINT가 제공하는 이익을 보여주는 실용적 사례 연구(예: 타이포그래피 공격, 개수 세기, VQA)는 어떤 것들이 있는가?

주요 결과

과제	미패치 정확도	패치된 정확도	(+Δ)
Cars	86.2	87.0	+0.8
DTD	64.9	66.1	+1.2
EuroSAT	79.9	87.2	+7.3
GTSRB	51.7	71.1	+19.4
KITTI	43.4	60.4	+17.0
MNIST	82.6	91.3	+8.7
RESISC45	73.4	74.2	+0.8
SUN397	76.9	79.3	+2.4
SVHN	72.8	88.9	+16.1

PAINT는 아홉 가지 패칭 작업에서 15에서 60 포인트의 개선을 달성하는 한편, ImageNet 정확도는 제로샷 모델의 <1 포인트 차이로 유지합니다.
패칭의 효과는 모델 규모 증가에 따라 커지며, 더 큰 모델은 비패칭 가중치와 미세조정 가중치 및 표현 간의 정렬이 더 가까워지는 경향을 보입니다.
여러 작업에서 패칭한 하나의 모델이 여러 전문 모델의 성능에 상응하거나 근접할 수 있으며(평균 결합 정확도 약 0.5포인트 이내), 여러 작업을 패칭할 때 이점이 큽니다.
패칭 기반의 광범위한 전이는 서로 다른 클래스 공간에서도 관련 작업의 성능을 향상시킵니다(예: EuroSAT/RESISC45, MNIST/SVHN 등).
PAINT는 사례 연구에서 견고한 이득을 달성합니다: 타이포그래피 공격에 대한 강건성이 최대 41포인트 개선; 보지 못한 숫자에 대한 counting은 ImageNet에 미치는 영향이 최소화된 상태에서 59%에서 99% 이상으로 개선; VQA 성능은 약 18포인트 상승하되 ImageNet 하락은 최소화됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.