QUICK REVIEW

[논문 리뷰] Viewmaker Networks: Learning Views for Unsupervised Representation Learning

Alex Tamkin, Mike Wu|arXiv (Cornell University)|2020. 10. 14.

Multimodal Machine Learning Applications참고 문헌 72인용 수 23

한 줄 요약

이 논문은 시각화 제작자 네트워크를 소개한다. 이는 생성 모델을 학습시켜 입력 데이터에 무작위적이며 $\epsilon$-제한된 변형을 생성함으로써 비지도 표현 학습을 위한 효과적인 데이터 증강 기법을 학습하는, 모odal과 무관한 방법이다. 이 방법은 CIFAR-10에서 수작업으로 설계된 SimCLR 시각화와 유사한 최고 수준의 전이 성능를 달성하며, 음성 데이터(+9% 정확도)와 웨어러블 센서 데이터(+17% 정확도)에서 기준 증강 기법보다 뚜렷이 뛰어나, 다양한 도메인에서 전문가가 설계한 시각화에 대한 의존도를 줄인다.

ABSTRACT

Many recent methods for unsupervised representation learning train models to be invariant to different "views," or distorted versions of an input. However, designing these views requires considerable trial and error by human experts, hindering widespread adoption of unsupervised representation learning methods across domains and modalities. To address this, we propose viewmaker networks: generative models that learn to produce useful views from a given input. Viewmakers are stochastic bounded adversaries: they produce views by generating and then adding an $\ell_p$-bounded perturbation to the input, and are trained adversarially with respect to the main encoder network. Remarkably, when pretraining on CIFAR-10, our learned views enable comparable transfer accuracy to the well-tuned SimCLR augmentations -- despite not including transformations like cropping or color jitter. Furthermore, our learned views significantly outperform baseline augmentations on speech recordings (+9% points, on average) and wearable sensor data (+17% points). Viewmakers can also be combined with handcrafted views: they improve robustness to common image corruptions and can increase transfer performance in cases where handcrafted views are less explored. These results suggest that viewmakers may provide a path towards more general representation learning algorithms -- reducing the domain expertise and effort needed to pretrain on a much wider set of domains. Code is available at https://github.com/alextamkin/viewmaker.

연구 동기 및 목표

비지도 표현 학습을 위한 효과적이고 도메인 특화된 데이터 증강 기법을 설계하는 데 도전하는 것 — 현재는 광범위한 전문가의 시행착오가 필요하다.
이미지, 음성, 시간 시리즈 센서 데이터와 같은 다양한 모달리티에서 시각화 설계에 있어 인간 전문 지식과 수동 튜닝에 대한 의존도를 줄이는 것.
고정된 전처리 파이프라인에 의존하지 않고, 대신 대비 학습 과정의 일부로 유용한 시각화를 학습하는 일반화 가능한 종단 간(end-to-end) 방법을 개발하는 것.
학습된 시각화를 사용해 미리 훈련한 뒤 레이블이 없는 데이터를 활용함으로써, 낮은 데이터 환경에서의 강건성과 전이 성능를 향상시키는 것.

제안 방법

시각화 제작자 네트워크는 무작위적이며 $\hat{\imath}\epsilon$-제약된 변형(즉, $\hat{\imath}\epsilon$-노름 투영을 통해)을 입력 데이터에 더하여 시각화를 생성하는 스토하스틱이고 경계가 있는 적대자이다.
주요 인코더와 함께 적대적으로 훈련되어 대비 손실를 최대화하도록 하여, 유용한 불변성을 유지하는 시각화를 생성하도록 유도한다.
이 방법은 인코더가 시각화 제작자의 변형에 대해 불변인 표현을 학습하도록 하는 공동 훈련 체계를 운영하며, 시각화 간 상호정보량을 최대화한다.
이 방법은 모달과 무관하며, 입력과 변형 공간을 적절히 조정함으로써 이미지, 스펙트로그램, 시간 시리즈 데이터에 적용할 수 있다.
시각화 제작자의 변형은 입력에 따라 달라지며 다양성이 있어, 수작업으로 설계된 변환 규칙이 필요 없이 복잡하고 데이터에 특화된 증강을 가능하게 한다.
이 방법은 순수한 자기지도 학습 미리 훈련과 준지도 학습 미세조정을 모두 지원하며, 미리 훈련 단계에서 종단 간으로 시각화를 학습한다.

실험 결과

연구 질문

RQ1학습된 생성적 시각화 모델이 다양한 모달리티에서 비지도 표현 학습에서 수작업으로 설계된 데이터 증강 기법을 능가할 수 있는가?
RQ2시각화 설계에서 도메인 특화 전문 지식의 필요성을 시각화 제작자 네트워크가 얼마나 줄일 수 있는가?
RQ3이미지, 음성, 센서 데이터에서 시각화 제작자 네트워크의 성능가 최고 수준의 수작업으로 설계된 시각화와 비교해 어떻게 되는가?
RQ4학습된 시각화가 일반적인 데이터 오염에 대한 강건성을 향상시키고, 낮은 감독 설정에서의 전이 학습 성능를 향상시킬 수 있는가?

주요 결과

CIFAR-10에서 시각화 제작자 네트워크는 전통적인 자르기, 색상 왜곡과 같은 표준 변환을 사용하지 않음에도 불구하고, 잘 튜닝된 SimCLR 증강 기법과 유사한 전이 정확도를 달성한다.
음성 인식 작업에서 시각화 제작자 네트워크는 기준 수작업 증강 기법보다 평균 9%포인트의 정확도 향상을 기록한다.
인간 활동 인식을 위한 웨어러블 센서 데이터에서 시각화 제작자 네트워크는 기준 시각화보다 17.1%포인트 향상되었으며, $\epsilon=0.5$일 때 16.7%포인트 향상되었다.
이 방법은 다양한 변형 예산($\epsilon$)에 대해 강건하며, 중간 수준의 값에서 성능가 최고에 도달하고, 변형이 너무 강해지면서만 성능이 저하된다.
단 한 명의 참가자 데이터만 레이블이 있는 준지도 설정에서, 시각화 제작자 네트워크로 미리 훈련하면 75.1%의 정확도를 달성하여, 동일한 데이터로 학습한 지도 학습(58.3%)을 뛰어넘고, 일곱 명의 참가자 데이터로 수작업으로 설계된 시각화를 훈련한 성능과도 맞먹는다.
시각화 제작자 네트워크는 수작업으로 설계된 시각화와 조합할 수 있으며, 이미지 오염에 대한 강건성을 향상시키고, 탐색이 부족한 모달리티 설정에서의 전이 성능를 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.