Skip to main content
QUICK REVIEW

[論文レビュー] Robust and Generalizable Visual Representation Learning via Random Convolutions

Zhenlin Xu, Deyi Liu|arXiv (Cornell University)|Jul 25, 2020
Domain Adaptation and Few-Shot Learning参考文献 48被引用数 85
ひとこと要約

本論文は、頑健な視覚表現を学習するためのデータ拡張としてランダム畳み込みを導入し、多くのテクスチャ変異ドメインを作成して元画像と組み合わせることで、ドメイン一般化とスケッチ-画像タスクを改善する。

ABSTRACT

While successful for various computer vision tasks, deep neural networks have shown to be vulnerable to texture style shifts and small perturbations to which humans are robust. In this work, we show that the robustness of neural networks can be greatly improved through the use of random convolutions as data augmentation. Random convolutions are approximately shape-preserving and may distort local textures. Intuitively, randomized convolutions create an infinite number of new domains with similar global shapes but random local textures. Therefore, we explore using outputs of multi-scale random convolutions as new images or mixing them with the original images during training. When applying a network trained with our approach to unseen domains, our method consistently improves the performance on domain generalization benchmarks and is scalable to ImageNet. In particular, in the challenging scenario of generalizing to the sketch domain in PACS and to ImageNet-Sketch, our method outperforms state-of-art methods by a large margin. More interestingly, our method can benefit downstream tasks by providing a more robust pretrained visual representation.

研究の動機と目的

  • 視覚表現におけるテクスチャ/スタイル変化とドメインシフトへの頑健性を担保する。
  • 局所的なテクスチャ情報よりもグローバルな形状を促進するよう、ランダム畳み込みを用いたデータ拡張戦略を開発する。
  • 多尺度のランダム畳み込みとミキシング変種を調査し、多様な学習ビューを生成する。
  • より頑健な事前学習済みモデルが下流のファインチューニングの頑健性を高めるかを評価する。

提案手法

  • ランダム畳み込みをデータ拡張手法として適用し、テクスチャが乱れたが概形をほぼ保持する画像を生成する。
  • 多尺度のランダム畳み込みの出力を新しい学習入力として用いるか、元画像と混合する。
  • 拡張データでネットワークを訓練し、局所的なテクスチャやドメインシフトへの不変性を促進する。
  • 未知のドメインを含むドメイン一般化ベンチマークで頑健性と一般化を評価する。
  • ImageNet のような大規模データセットへの適用でスケーラビリティを検証する。
  • 再現性のためのオープンソースコードを提供する。

実験結果

リサーチクエスチョン

  • RQ1ランダム畳み込みは、視覚表現のドメインシフトや小さな摂動に対する頑健性を向上させ得るか?
  • RQ2ランダム畳み込みの出力と元画像を混合することで、未知のドメインへの一般化が高まるか?
  • RQ3ImageNet のような大規模データセットに対してこの手法はスケーラブルか、頑健な事前学習表現を通じて下流タスクに有益か?
  • RQ4PACS(スケッチドメイン)や ImageNet-Sketch のような挑戦的なドメインシフトベンチマークで方法の性能はどうなるか?

主な発見

  • ランダム畳み込みは、ドメインシフトや小さな摂動に対する頑健性を向上させる。
  • 多尺度のランダム畳み込みは、グローバルな形状を保ちながら多様なテクスチャ変化を提供する。
  • この手法は、ドメイン一般化ベンチマークで未知のドメインに対して一貫して性能を向上させる。
  • スケッチドメイン(PACS)や ImageNet-Sketch のような難しい設定で最先端手法を上回る。
  • この手法は ImageNet へスケーラブルで、下流タスクに利益をもたらすより頑健な事前学習表現を生み出し得る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。