[논문 리뷰] Improving neural network representations using human similarity judgments
본 논문은 gLocal 변환을 통해 신경 표현의 글로벌 구조를 인간의 유사도 판단과 정렬하고, 로컬 구조는 보존하면서, few-shot 학습과 이상 탐지를 개선한다.
Deep neural networks have reached human-level performance on many computer vision tasks. However, the objectives used to train these networks enforce only that similar images are embedded at similar locations in the representation space, and do not directly constrain the global structure of the resulting space. Here, we explore the impact of supervising this global structure by linearly aligning it with human similarity judgments. We find that a naive approach leads to large changes in local representational structure that harm downstream performance. Thus, we propose a novel method that aligns the global structure of representations while preserving their local structure. This global-local transform considerably improves accuracy across a variety of few-shot learning and anomaly detection tasks. Our results indicate that human visual representations are globally organized in a way that facilitates learning from few examples, and incorporating this global structure into neural network representations improves performance on downstream tasks.
연구 동기 및 목표
- 인간 유사도에 대한 명시적 글로벌 정렬이 다운스트림 전이 성능을 향상시키는지 조사한다.
- 글로벌 정렬과 로컬 구조 보존을 결합하는 변환을 개발한다.
- 다양한 모델과 데이터셋에서 글로벌-로컬 정합이 few-shot 학습 및 이상 탐지에 어떤 영향을 미치는지 평가한다.
- 작업 성능을 향상시키면서 gLocal 변환이 인간 유사도 판단과의 정렬을 유지하는지 평가한다.
제안 방법
- 트립렛에 대한 소프트맥스 가능성을 통해 모델의 유사성을 인간의 트립렛 기반 판단과 일치시키는 글로벌 정렬 손실을 정의한다.
- 글로벌 정렬을 최대화하는 순진한 선형 변환과 스케일된 항등행렬로의 규제 글로벌 변환을 비교한다.
- 변환 전/후 공간 간 대조적 목표를 사용하여 원래 공간의 이웃 구조를 보존하는 로컬 손실을 도입한다.
- 글로벌 정렬과 지역성 유지 손실을 gLocal 목표에 결합하고 변환 행렬에 대한 규제 항을 추가한다.
- ImageNet 표현을 penultimate 계층에 임베드하고 W, b를 최적화하여 글로벌 손실과 로컬 손실의 가중합을 최소화한다.
- 정렬과 로컬 구조의 균형을 맞추기 위해 하이퍼파라미터(alpha, lambda, tau)을 그리드 탐색으로 평가한다.

실험 결과
연구 질문
- RQ1대표성의 글로벌 구조를 인간의 유사도 판단과 정렬하는 것이 다운스트림 작업 성능을 향상시키는가?
- RQ2규제된 변환이 글로벌 정렬을 달성하면서 로컬 구조를 유지할 수 있는가?
- RQ3gLocal은 naive 및 원래 표현과 비교하여 few-shot 학습 및 이상 탐지에서 어떻게 성능을 발휘하는가?
- RQ4gLocal로 정렬된 표현이 여러 인간 데이터셋에 걸쳐 인간 유사도 판단과의 정렬을 유지하는가?
주요 결과
- gLocal 변환은 글로벌 인간 정렬 구조를 도입하면서 로컬 이웃 구조를 보존한다.
- Naive 글로벌 정렬은 다운스트림 성능을 해칠 수 있으며; gLocal은 로컬 제약을 추가해 이를 완화한다.
- gLocal은 여러 CLIP 기반 모델과 데이터셋에서 few-shot 학습과 이상 탐지 성능을 일관되게 개선한다.
- gLocal을 사용한 인간 판단에의 표현 정렬은 로컬 구조를 보존하더라도 naive 정렬과 비교하여 견줄 만한 수준이다.
- gLocal의 이익은 여러 인간 유사도 데이터셋에서 강건하며 인간 정렬 지표의 큰 손실을 초래하지 않는다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.