QUICK REVIEW

[論文レビュー] Frustratingly Simple Domain Generalization via Image Stylization

Nathan Somavarapu, Chih‐Yao Ma|arXiv (Cornell University)|Jun 19, 2020

Image Retrieval and Classification Techniques参考文献 40被引用数 53

ひとこと要約

シンプルなイン-domain のスタイライゼーション補強（およびインターソースのスタイライゼーション）は、外部データソースを用いずに、形状を質感より重視するようモデルをバイアスさせることでドメイン一般化を改善し、DGベンチマークで競争力のある、または最先端の結果を達成する。

ABSTRACT

Convolutional Neural Networks (CNNs) show impressive performance in the standard classification setting where training and testing data are drawn i.i.d. from a given domain. However, CNNs do not readily generalize to new domains with different statistics, a setting that is simple for humans. In this work, we address the Domain Generalization problem, where the classifier must generalize to an unknown target domain. Inspired by recent works that have shown a difference in biases between CNNs and humans, we demonstrate an extremely simple yet effective method, namely correcting this bias by augmenting the dataset with stylized images. In contrast with existing stylization works, which use external data sources such as art, we further introduce a method that is entirely in-domain using no such extra sources of data. We provide a detailed analysis as to the mechanism by which the method works, verifying our claim that it changes the shape/texture bias, and demonstrate results surpassing or comparable to the state of the arts that utilize much more complex methods.

研究の動機と目的

人間とは異なるモデルのバイアスに対処することで、未知のドメインに対する頑健な一般化を動機づける。
内容を保持しつつ質感を変える軽量なデータ拡張を提案し、モデルの依存を形状へシフトする。
イン・ドメインおよびインターソースのスタイライゼーションが、標準ベンチマーク上で最先端のDG手法に匹敵する、あるいはそれを上回ることを示す。
スタイライゼーションが形状バイアスと質感バイアスをどのように変え、一般化へどう影響するかを分析する。

提案手法

AdaIN を用いて確率 p で画像をスタイライズ版に置き換える確率的スタイライゼーション S_{Q,p}(x) を定義する。スタイル集合 Q は画家データセットや他のソースドメインなどのソースから抽出する。
訓練時にスタイライゼーションを適用し、分類ロスのエンドツーエンド最適化を行う: min_theta E_{x,y ~ D_S}[ L_c( f(S_{Q,p}(x); theta), y) ].
インターソーススタイライゼーションを導入。Q を他のソースドメインから構成する（または現在のドメインを Q とするイン家ソース）ことで、外部データなしにドメイン内のばらつきを活用する。
スタイライゼーションは形状情報を増加させる傾向があり、質感情報を大きく低下させることはないことを示し、クロスドメイン性能の向上につながる。
ResNet-18 や AlexNet をバックボーンとして、DGベンチマーク PACS、VLCS、Office-Home を用いて実験する。
形状バイアス、形状精度、質感精度を測定する手掛かりが対立するデータセットを含む分析を提供する。

実験結果

リサーチクエスチョン

RQ1シンプルなスタイライゼーション補強は、追加データソースなしでドメイン一般化を改善しますか？
RQ2DG設定におけるCNNの形状バイアスと質感バイアスに、スタイライゼーションはどのような影響を与えますか？
RQ3外部の絵画データを用いたスタイライゼーションと同等の効果を、インターソーススタイライゼーションはDGで発揮しますか？
RQ4インターソーススタイライゼーションの利益に最も寄与するソースドメインはどれですか？
RQ5異なるバックボーンアーキテクチャやデータセットで、利得は一貫していますか？

主な発見

スタイライゼーションベースの拡張は、PACS、VLCS、Office-Home のベンチマークで最先端のDG結果と競合する。
インターソーススタイライゼーション（外部の絵画データなし）は、絵画ベースのスタイライゼーションと同等の改善を提供し、ソース間のばらつきが十分であることを示唆する。
スタイライゼーションは形状バイアスと形状精度を高め、質感精度はほぼ変わらず、クロスドメイン一般化の向上と相関する。
バックボーン（ResNet-18 および AlexNet）と複数のターゲットドメインにわたって利益が観測される。
インターソーススタイライゼーションのためにより多くのソースを使用すると一般的に有効だが、複数のソースの混合を超えるとリターンは縮小する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。