QUICK REVIEW

[论文解读] Viewmaker Networks: Learning Views for Unsupervised Representation Learning

Alex Tamkin, Mike Wu|arXiv (Cornell University)|Oct 14, 2020

Multimodal Machine Learning Applications参考文献 72被引用 23

一句话总结

本文提出视图生成网络（viewmaker networks），一种与模态无关的方法，通过训练生成模型以生成随机且$ε$-有界的扰动作为视图，从而学习有效的数据增强方法，用于无监督表示学习。该方法在CIFAR-10上的迁移性能达到最先进水平，与手工设计的SimCLR视图相当，同时在语音数据（+9%准确率）和可穿戴传感器数据（+17%准确率）上显著优于基线增强方法，显著降低了跨领域对专家设计视图的依赖。

ABSTRACT

Many recent methods for unsupervised representation learning train models to be invariant to different "views," or distorted versions of an input. However, designing these views requires considerable trial and error by human experts, hindering widespread adoption of unsupervised representation learning methods across domains and modalities. To address this, we propose viewmaker networks: generative models that learn to produce useful views from a given input. Viewmakers are stochastic bounded adversaries: they produce views by generating and then adding an $\ell_p$-bounded perturbation to the input, and are trained adversarially with respect to the main encoder network. Remarkably, when pretraining on CIFAR-10, our learned views enable comparable transfer accuracy to the well-tuned SimCLR augmentations -- despite not including transformations like cropping or color jitter. Furthermore, our learned views significantly outperform baseline augmentations on speech recordings (+9% points, on average) and wearable sensor data (+17% points). Viewmakers can also be combined with handcrafted views: they improve robustness to common image corruptions and can increase transfer performance in cases where handcrafted views are less explored. These results suggest that viewmakers may provide a path towards more general representation learning algorithms -- reducing the domain expertise and effort needed to pretrain on a much wider set of domains. Code is available at https://github.com/alextamkin/viewmaker.

研究动机与目标

为解决在无监督表示学习中设计有效、领域特定数据增强方法的挑战，目前该过程需要大量专家试错。
减少在图像、语音和时间序列传感器数据等多样化模态中视图设计对人工专业知识和手动调参的依赖。
开发一种可泛化、端到端的方法，将有用视图的学习作为对比学习过程的一部分，而非依赖固定变换流水线。
通过使用学习到的视图在无标签数据上预训练，提升低数据量场景下的鲁棒性和迁移性能。

提出的方法

Viewmaker网络是随机的、有界对抗样本，通过在输入数据上添加$Î\backepsilon$-约束扰动（通过$Î\backepsilon$-范数投影实现）来生成视图。
视图生成器与主编码器联合对抗性训练，以最大化对比损失，从而鼓励生成保留有用不变性的视图。
该方法采用联合训练机制，使编码器学习对视图生成器扰动具有不变性的表示，促进视图间互信息最大化。
该方法具有模态无关性，可通过相应调整输入和扰动空间，应用于图像、频谱图和时间序列数据。
视图生成器的扰动具有输入依赖性和多样性，可在无需手工设计变换规则的情况下实现复杂、数据特定的增强。
该方法支持纯自监督预训练和半监督微调，视图在预训练阶段端到端学习。

实验结果

研究问题

RQ1学习到的生成式视图模型是否能在多种模态的无监督表示学习中超越手工设计的数据增强方法？
RQ2Viewmaker网络在多大程度上能减少视图设计中对领域特定专家知识的依赖？
RQ3Viewmaker网络在图像、语音和传感器数据上的性能与最先进手工设计视图相比如何？
RQ4学习到的视图是否能提升对常见数据损坏的鲁棒性，并增强低监督设置下的迁移学习性能？

主要发现

在CIFAR-10上，viewmaker网络在未使用裁剪或颜色抖动等标准变换的情况下，实现了与精心调优的SimCLR增强方法相当的迁移准确率。
在语音识别任务中，viewmaker网络相比基线手工设计视图，平均准确率提升9个百分点。
在可穿戴传感器数据的人体活动识别任务中，viewmaker网络相比基线视图实现17.1个百分点的准确率提升，其中在$ε=0.5$时达到16.7个百分点的增益。
该方法对广泛的扰动预算（$ε$）具有鲁棒性，性能在中等$ε$值时达到峰值，仅在扰动过强时性能下降。
在仅使用一名参与者标注数据的半监督设置下，使用viewmaker网络进行预训练可达到75.1%的准确率，优于相同数据上的监督学习（58.3%），并匹配使用全部七名参与者数据训练的手工视图的性能。
Viewmaker网络可与手工视图结合使用，提升对图像损坏的鲁棒性，并增强在探索不足的模态设置下的迁移性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。