QUICK REVIEW

[論文レビュー] Viewmaker Networks: Learning Views for Unsupervised Representation Learning

Alex Tamkin, Mike Wu|arXiv (Cornell University)|Oct 14, 2020

Multimodal Machine Learning Applications参考文献 72被引用数 23

ひとこと要約

この論文では、生成モデルを用いて確率的かつ$ε$-有界な摂動をビューとして生成することで、教師なし表現学習のための効果的なデータ拡張を学ぶ、モダリティに依存しないビュー生成ネットワーク（viewmaker networks）を提案する。この手法は、CIFAR-10では手作業で調整されたSimCLRのビューと同等の転移性能を達成しており、音声データ（+9%の精度向上）およびウェアラブルセンサデータ（+17%の精度向上）においてベースラインの拡張法を顕著に上回っている。これにより、異なる分野においてエキスパートが設計したビューに依存する必要が大幅に軽減される。

ABSTRACT

Many recent methods for unsupervised representation learning train models to be invariant to different "views," or distorted versions of an input. However, designing these views requires considerable trial and error by human experts, hindering widespread adoption of unsupervised representation learning methods across domains and modalities. To address this, we propose viewmaker networks: generative models that learn to produce useful views from a given input. Viewmakers are stochastic bounded adversaries: they produce views by generating and then adding an $\ell_p$-bounded perturbation to the input, and are trained adversarially with respect to the main encoder network. Remarkably, when pretraining on CIFAR-10, our learned views enable comparable transfer accuracy to the well-tuned SimCLR augmentations -- despite not including transformations like cropping or color jitter. Furthermore, our learned views significantly outperform baseline augmentations on speech recordings (+9% points, on average) and wearable sensor data (+17% points). Viewmakers can also be combined with handcrafted views: they improve robustness to common image corruptions and can increase transfer performance in cases where handcrafted views are less explored. These results suggest that viewmakers may provide a path towards more general representation learning algorithms -- reducing the domain expertise and effort needed to pretrain on a much wider set of domains. Code is available at https://github.com/alextamkin/viewmaker.

研究の動機と目的

教師なし表現学習のための効果的でドメイン特化されたデータ拡張を設計する課題に取り組むこと。現在のところ、このプロセスは膨大なエキスパートによる試行錯誤を必要としている。
画像、音声、時系列センサデータなどの多様なモダリティにおいて、ビュー設計における人的知見や手動チューニングへの依存度を低減すること。
固定された変換パイプラインに依存するのではなく、対照学習プロセスの一部として有用なビューを学習する汎用的でエンドツーエンドの手法を構築すること。
学習済みビューを用いて無ラベルデータで事前学習することで、低データ量の状況でも頑健性と転移性能を向上させること。

提案手法

ビュー生成ネットワークは、入力データに$Î\backepsilon$-制約付きの摂動（$Î\backepsilon$-ノルム射影を用いて）を加えることでビューを生成する確率的かつ有界な敵対的生成モデルである。
主エンコーダーとともに敵対的に訓練されるビュー生成ネットワークは、対照損失を最大化するように最適化され、有用な不変性を保つビューの生成を促進する。
エンコーダーがビュー生成ネットワークの摂動に対して不変な表現を学ぶように、共同学習スキームを採用することで、ビュー間の相互情報量を最大化する。
モダリティに依存しないアプローチであり、入力および摂動空間を適切に調整することで、画像、スペクトログ램、時系列データに適用可能である。
ビュー生成ネットワークの摂動は入力に依存し多様であるため、手作業で設計された変換ルールを必要とせず、複雑でデータ固有の拡張が可能である。
純粋な自己教師あり事前学習と半教師あり微調整の両方をサポートしており、事前学習段階でエンドツーエンドでビューが学習される。

実験結果

リサーチクエスチョン

RQ1学習された生成的ビュー生成モデルは、画像、音声、センサデータなど多様なモダリティにおいて、手作業で設計されたデータ拡張法を上回ることができるか？
RQ2ビュー生成ネットワークは、ビュー設計におけるドメイン特化型のエキスパート知識の必要性をどの程度低減できるか？
RQ3画像、音声、センサデータにおいて、ビュー生成ネットワークの性能は、最先端の手作業で設計されたビューと比べてどうか？
RQ4学習されたビューは、一般的なデータの損傷に対して頑健性を向上させ、低監視設定における転移学習を強化できるか？

主な発見

CIFAR-10では、標準的な変換（クロップやカラージャンブルなど）を一切使用しないにもかかわらず、よく調整されたSimCLRのビューと同等の転移精度を達成した。
音声認識タスクでは、ベースラインの手作業で設計されたビューを平均9ポイント上回る精度向上を達成した。
ウェアラブルセンサデータを用いた人間の行動認識タスクでは、ベースラインのビューを17.1ポイント上回った。$ε=0.5$では16.7ポイントの向上を記録した。
摂動の予算（$ε$）の広い範囲にわたり頑健であり、中程度の値で性能がピークに達し、摂動が強すぎる場合にはのみ劣化が見られた。
ラベル付きデータが1名の参加者分しかない半教師あり設定でも、ビュー生成ネットワークを用いた事前学習により75.1%の精度を達成し、同じデータで教師あり学習を行った場合（58.3%）を上回り、全7名分の参加者データで手作業で設計されたビューを学習した場合と同等の性能を示した。
ビュー生成ネットワークは手作業で設計されたビューと組み合わせて使用可能であり、画像の損傷に対して頑健性を向上させるとともに、未十分に研究されてきたモダリティ設定でも転移性能を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。