QUICK REVIEW

[논문 리뷰] Unsupervised Learning of Invariant Representations in Hierarchical Architectures

Fabio Anselmi, Joel Z. Leibo|arXiv (Cornell University)|2013. 11. 17.

Image Retrieval and Classification Techniques참고 문헌 56인용 수 65

한 줄 요약

이 논문은 샘플 수가 적은 경우에도 자동으로 변형에 강인하고 구분력 있는 표현을 학습할 수 있는 히에라르키컬한 비지도 학습 프레임워크를 제안한다. 이는 투플-우엘 유사 모듈을 기반으로 하며, 이미지 패치와 학습된 템플릿 간의 내적값 분포를 풀링하여 변형에 강인한 서명을 계산함으로써, 이동, 체적, 자세 변화에 대한 불변성을 확보하면서도 구분력을 유지한다. 이로 인해 소수의 레이블 예시로도 인식이 가능해지며, 고등 영양동물의 복합시각 경로 원리와 유사하다.

ABSTRACT

The present phase of Machine Learning is characterized by supervised learning algorithms relying on large sets of labeled examples ($n o \infty$). The next phase is likely to focus on algorithms capable of learning from very few labeled examples ($n o 1$), like humans seem able to do. We propose an approach to this problem and describe the underlying theory, based on the unsupervised, automatic learning of a ``good'' representation for supervised learning, characterized by small sample complexity ($n$). We consider the case of visual object recognition though the theory applies to other domains. The starting point is the conjecture, proved in specific cases, that image representations which are invariant to translations, scaling and other transformations can considerably reduce the sample complexity of learning. We prove that an invariant and unique (discriminative) signature can be computed for each image patch, $I$, in terms of empirical distributions of the dot-products between $I$ and a set of templates stored during unsupervised learning. A module performing filtering and pooling, like the simple and complex cells described by Hubel and Wiesel, can compute such estimates. Hierarchical architectures consisting of this basic Hubel-Wiesel moduli inherit its properties of invariance, stability, and discriminability while capturing the compositional organization of the visual world in terms of wholes and parts. The theory extends existing deep learning convolutional architectures for image and speech recognition. It also suggests that the main computational goal of the ventral stream of visual cortex is to provide a hierarchical representation of new objects/images which is invariant to transformations, stable, and discriminative for recognition---and that this representation may be continuously learned in an unsupervised way during development and visual experience.

연구 동기 및 목표

인간이 그러하듯 매우 소수의 레이블 예시(n→1)에서 학습하는 데 도전하고, 시각 인식의 샘플 복잡도를 감소시키기 위해.
안정적이고 구분력 있는 불변 표현을 자동으로 비지도 학습으로 학습할 수 있는 이론을 개발하기 위해.
히에라르키컬한 아키텍처가 투플-우엘 모듈로 구성되어 있을 때, 이동, 체적, 시점 변화를 포함한 국소 아핀 변환에 대해 어떻게 불변성을 달성할 수 있는지 수식화하기 위해.
고등 영양동물의 시각 피질에서의 통찰을 딥 러닝과 연결하여, 복합시각 경로의 핵심 기능이 지속적인 비지도 학습을 통해 이러한 불변 표현을 구축한다는 것을 제안하기 위해.

제안 방법

이 방법은 투플-우엘(HW) 모듈로 구성된 히에라르키컬한 아키텍처를 사용하며, 각 모듈은 단순 세포(필터링)와 복합 세포(풀링)로 이루어져 있어 불변 서명을 계산한다.
각 이미지 패치는 비지도 사전학습 기간 동안 저장된 학습된 템플릿들과의 내적값 분포의 경험적 분포로부터 유도된 서명 벡터로 표현된다.
지역 수용장에 대한 풀링(합 또는 최댓값 연산 사용)을 통해 이동과 체적 변화에 대한 불변성을 확보하며, 복합 세포의 행동을 모방한다.
히에라르키컬한 조합을 통해 아키텍처는 불변성, 안정성, 구분력을 습득하며, 고차원 레이어는 저차원 레이어의 불변 특징을 통합하여 전역 표현을 형성한다.
표준 컨볼루션 네트워크를 확장하여, 불변성을 학습 결과가 아닌 아키텍처의 구조적 특성으로 통합하며, 비지도로 레이블이 없는 데이터로부터 템플릿을 학습한다.
3D 회전이나 평면 내 자세 변화와 같은 복잡한 변환의 경우, 이러한 변환을 겪는 객체의 저장된 뷰를 기반으로 풀링하는 전용 풀링 레이어를 도입한다.

실험 결과

연구 질문

RQ1비지도 학습을 통한 불변 표현 학습이 정확한 시각 인식을 위해 필요한 레이블 예시 수를 크게 줄일 수 있는가?
RQ2히에라르키컬한 투플-우엘 모듈 아키텍처는 국소 아핀 변환에 대해 불변성을 달성하면서도 구분 정보를 유지할 수 있는가?
RQ3경험적 내적값 분포를 기반으로 한 서명이 유일하고 안정적이며 구분력 있는 표현으로 계산될 수 있는가?
RQ4제안된 아키텍처는 고등 영양동물의 복합시각 경로의 계산 기능을 모방하여 변형에 강인하고 히에라르키컬한 표현을 생성하는가?
RQ53D 회전과 같은 복잡한 변형에 대해, 아키텍처 설계 외에 저장된 뷰에 대한 학습된 풀링을 통해 불변성을 달성할 수 있는가?

주요 결과

제안된 히에라르키컬 아키텍처는 이동, 체적, 시점 변화를 포함한 국소 아핀 변환에 대해 구성상으로 불변성을 확보하며, 레이블이 없는 데이터로 불변성을 학습하지 않아도 된다.
HW 모듈이 계산한 서명 벡터는 수용장 내의 변형에 대해 불변하며, 눈 간 거리 변화와 같은 이미지 왜곡 상황에서도 일관된 서명 노름을 유지함을 입증했다.
서명 벡터는 이미지 왜곡에 대해 리프시츠 안정성을 보이며, 소규모 입력 변화가 표현에 유한한 변화를 유도함으로써 강건성을 확보한다.
아키텍처는 구분력을 유지한다: 서로 다른 이미지(예: 두 얼굴)의 서명은 시각 필드 내에서 이미지가 이동하더라도 서로 다를 것이다. 이는 단일 예시로도 인식이 가능하다.
HMAX 유사 구현에서의 경험적 결과로, 레이어 2의 서명은 전역 이동에 대해 불변이며 서로 다른 얼굴 간에 구분 가능하며, 서명 간 유클리드 거리가 이미지 유사도를 반영한다.
3D 회전 및 평면 내 자세 변화를 위한 전용 풀링을 통합한 모델은 Labeled Faces in the Wild 데이터셋에서 최신 기술 수준의 성능을 달성했으며, 깊이 방향의 회전에 대해서도 단일 뷰에서 새로운 얼굴을 인식하는 데 있어 높은 강건성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.