Skip to main content
QUICK REVIEW

[논문 리뷰] Representation Learning by Learning to Count

Mehdi Noroozi, Hamed Pirsiavash|arXiv (Cornell University)|2017. 08. 22.
Domain Adaptation and Few-Shot Learning참고 문헌 40인용 수 30
한 줄 요약

이 논문은 척도 및 타일링 변환에 대한 불변성 특성을 활용하여 시각적 원소(예: 물체 또는 부분)의 수를 세는 방식으로 자기지도 학습을 수행하는 딥 네트워크를 훈련시키는 표현 학습 방법을 제안한다. 변환된 이미지 패치 간의 대비 손실을 사용함으로써, 수동 레이블이 전혀 필요 없이도 최신 기준 성능에 도달하거나 이를 초월하는 의미 있는 특징을 학습한다.

ABSTRACT

We introduce a novel method for representation learning that uses an artificial supervision signal based on counting visual primitives. This supervision signal is obtained from an equivariance relation, which does not require any manual annotation. We relate transformations of images to transformations of the representations. More specifically, we look for the representation that satisfies such relation rather than the transformations that match a given representation. In this paper, we use two image transformations in the context of counting: scaling and tiling. The first transformation exploits the fact that the number of visual primitives should be invariant to scale. The second transformation allows us to equate the total number of visual primitives in each tile to that in the whole image. These two transformations are combined in one constraint and used to train a neural network with a contrastive loss. The proposed task produces representations that perform on par or exceed the state of the art in transfer learning benchmarks.

연구 동기 및 목표

  • 수동 레이블 없이도 새로운 전경 작업 기반의 시각적 원소 수 세기 기반으로 자기지도 표현 학습 방법을 개발하는 것.
  • 이미지 변환(척도 및 타일링)과 특징 변환 간의 등변성 원리를 이용해 감독 신호를 수학적으로 정식화하는 것.
  • 기반 수 세기 방식의 자기지도 학습이 분류 및 검출과 같은 후속 작업에 대해 구분 가능한 특징을 생성하는지 확인하는 것.
  • 학습된 특징이 저수준의 무늬나 윤곽이 아닌 고수준의 의미적 내용을 포착하고 있는지 검증하는 것.

제안 방법

  • 이 방법은 두 가지 이미지 변환을 사용한다: 척도 변환(시각적 원소 수의 척도 불변성 강제)과 타일링 변환(이미지 영역 간 수의 덧셈 일관성 강제).
  • 같은 총 시각적 원소 수를 유지하는 변환된 이미지 패치에 대해 유사한 표현을 생성하도록 유도하는 대비 손실을 정의한다.
  • 감독 신호의 근거로 등변성 원리를 활용한다: 만약 총 시각적 원소 수가 변환 간에 유지된다면, 특징 표현도 이 산술적 일관성을 반영해야 한다.
  • 양의 쌍(즉, 수의 조건을 만족하는 쌍)을 기반으로 대비 손실을 사용하여 네트워크를 엔드 투 엔드로 훈련시킨다.
  • 네트워크가 출력하는 수 세기 벡터를 후속 전이 학습 작업을 위한 표현으로 사용한다.
  • 이를 초과하는 다른 변환 관계(예: 수학적 기능 관계로 표현 가능한)에도 일반화 가능하다.

실험 결과

연구 질문

  • RQ1시각적 원소 수 세기 작업이 자기지도 표현 학습에 의미 있는 전경 작업이 될 수 있는가?
  • RQ2척도 및 타일링 변환에 대한 불변성을 강제함으로써 고수준의 의미적 내용을 포착하는 특징을 얻을 수 있는가?
  • RQ3수의 일관성에 기반한 대비 손실이 표준 전이 학습 벤치마크에서 기존 자기지도 학습 방법보다 우수한 성능을 내는가?
  • RQ4학습된 특징이 저수준의 이미지 통계가 아닌 의미적 개념을 얼마나 잘 반영하는가?

주요 결과

  • 제안된 방법은 표준 전이 학습 벤치마크에서 최신 기준 성능을 달성하며, 이전 자기지도 학습 방법을 능가하거나 동등하게 성능을 내었다.
  • 수 세기 벡터의 크기는 이미지 영역 크기가 커질수록 증가하여, 저수준 무늬가 아닌 시각적 원소의 수에 민감함을 보였다.
  • 수 특징 크기가 높은 이미지는 여러 개의 물체 또는 큰 물체를 포함하지만, 낮은 크기의 이미지는 일반적으로 눈에 띄는 원소가 없는 무늬일 경우가 많다.
  • 수 특징 공간에서의 최근접 이웃 검색은 유사한 경계를 가진 의미적으로 유사한 이미지를 성공적으로 검색했으며, 이는 특징의 의미적 관련성을 확인한다.
  • 뉴런 활성화 시각화 결과, 개별 뉴런이 의미적으로 일관된 이미지 클러스터(예: ImageNet의 개, COCO에서 야구를 플레이하는 사람)에 반응하는 것으로 나타났다.
  • 색소가 유지된 이미지 컷에서도 모델이 잘 작동함을 확인하여, 색소가 수 세기 신호를 방해하지 않음을 시사하지만, 색소를 완전히 제거하면 성능이 저하됨을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.